forked from inclusionAI/SWE-CARE
-
Notifications
You must be signed in to change notification settings - Fork 3
Open
Labels
Description
- 选择1个目标Python仓库
- 根据
Readme.md,执行Get Pull Request Data脚本,即使用GitHub GraphQL API从特定仓库获取 PR 数据。
python -m swe_care.collect get_graphql_prs_data \
--repo "<repo_owner>/<repo_name>" \
--output-dir "results/graphql_prs_data" \
--tokens "your_github_pat" \
--max-number 20
- 执行``Classify PRs Data```脚本,该脚本通过评估提交内容并标注审查意见,对PR数据进行分析与分类。
python -m swe_care.collect classify_prs_data \
--graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
--output-dir "./results/classify_prs_data" \
--tokens "your_github_pat"
- 执行
Build Code Review Dataset,目标在于构建代码审查任务的最终数据集。此步骤需要大型语言模型对每个任务实例的元数据(如问题领域、难度和审查工作量)进行分类。
# Example with OpenAI GPT-4o
export OPENAI_API_KEY=<your_openai_api_key>
python -m swe_care.collect build_code_review_dataset \
--graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
--pr-classification-file "results/classify_prs_data/<repo_owner>__<repo_name>_pr_classification.jsonl" \
--model "gpt-4o" \
--model-provider "openai" \
--model-args "temperature=0.7,top_p=0.9" \
--output-dir "./results/dataset" \
--tokens "your_github_pat"
- 提交代码审查数据文件的
Pull Request