现在您可以通过 JSON 配置文件来自定义 arXiv 搜索查询,无需修改代码!
data/search_config.json- 搜索配置文件docs/search_config_guide.md- 详细使用指南scripts/validate_search_config.py- 配置验证脚本
python scripts/validate_search_config.py编辑 data/search_config.json 文件:
{
"search_config": {
"both_abstract_and_title": [
"video diffusion",
"video generation",
"text-to-video"
],
"abstract_only": [
"diffusion model video generation"
],
"title_only": [
"video generation"
]
}
}python scripts/validate_search_config.pypython scripts/arxiv_crawler.py --max-results 10both_abstract_and_title: 在摘要和题目中搜索的关键词abstract_only: 仅在摘要中搜索的关键词title_only: 仅在题目中搜索的关键词
{
"search_config": {
"both_abstract_and_title": ["video diffusion", "video generation"],
"abstract_only": [],
"title_only": []
}
}{
"search_config": {
"both_abstract_and_title": [
"video diffusion",
"video generation",
"text-to-video"
],
"abstract_only": [
"diffusion model video",
"video synthesis"
],
"title_only": [
"video generation",
"text-to-video"
]
}
}如果配置文件不存在或格式错误,系统会自动使用默认的 Video Diffusion 搜索查询。
本次还修复了以下问题:
- Windows 兼容性: 修复了
test_workflow.py中的python3命令在 Windows 上的兼容性问题 - API 错误处理: 改进了 arXiv API 的错误处理,当遇到空页面时正常完成而不是失败
- 默认参数调整: 将默认最大结果数量从 10000 调整为 500,避免频繁触发 API 限制
# 验证配置文件
python scripts/validate_search_config.py
# 测试爬虫(少量结果)
python scripts/arxiv_crawler.py --max-results 5
# 运行完整工作流程测试
python scripts/test_workflow.py搜索配置功能现在已经完全集成到系统中,您可以轻松地通过修改 JSON 配置文件来自定义搜索范围!