[Codefuse开源轻训营] 从3个仓库里，收集5条代码审查instance，至少包含Easy、Medium两类代码审查难度级别

1. 选择3个目标Python仓库
2. 根据``Readme.md``，``执行Get Pull Request Data``脚本，即使用 ``GitHub GraphQL API ``从特定仓库获取 PR 数据。
```
python -m swe_care.collect get_graphql_prs_data \
    --repo "<repo_owner>/<repo_name>" \
    --output-dir "results/graphql_prs_data" \
    --tokens "your_github_pat" \
    --max-number 20
```
3. 执行``Classify PRs Data```脚本，该脚本通过评估提交内容并标注审查意见，对PR数据进行分析与分类。
```
python -m swe_care.collect classify_prs_data \
    --graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
    --output-dir "./results/classify_prs_data" \
    --tokens "your_github_pat"
```
4. 执行``Build Code Review Dataset``，目标在于构建代码审查任务的最终数据集。此步骤需要大型语言模型对每个任务实例的元数据（如问题领域、难度和审查工作量）进行分类。
```
# Example with OpenAI GPT-4o
export OPENAI_API_KEY=<your_openai_api_key>
python -m swe_care.collect build_code_review_dataset \
    --graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
    --pr-classification-file "results/classify_prs_data/<repo_owner>__<repo_name>_pr_classification.jsonl" \
    --model "gpt-4o" \
    --model-provider "openai" \
    --model-args "temperature=0.7,top_p=0.9" \
    --output-dir "./results/dataset" \
    --tokens "your_github_pat"
```
5. 提交代码审查数据文件的``Pull Request``

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Codefuse开源轻训营] 从3个仓库里，收集5条代码审查instance，至少包含Easy、Medium两类代码审查难度级别 #2

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Codefuse开源轻训营] 从3个仓库里，收集5条代码审查instance，至少包含Easy、Medium两类代码审查难度级别 #2

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions