Skip to content

[Codefuse开源轻训营] 从3个仓库里,收集5条代码审查instance,至少包含Easy、Medium两类代码审查难度级别 #2

@Henrykwokkk

Description

@Henrykwokkk
  1. 选择3个目标Python仓库
  2. 根据Readme.md执行Get Pull Request Data脚本,即使用 GitHub GraphQL API 从特定仓库获取 PR 数据。
python -m swe_care.collect get_graphql_prs_data \
    --repo "<repo_owner>/<repo_name>" \
    --output-dir "results/graphql_prs_data" \
    --tokens "your_github_pat" \
    --max-number 20
  1. 执行``Classify PRs Data```脚本,该脚本通过评估提交内容并标注审查意见,对PR数据进行分析与分类。
python -m swe_care.collect classify_prs_data \
    --graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
    --output-dir "./results/classify_prs_data" \
    --tokens "your_github_pat"
  1. 执行Build Code Review Dataset,目标在于构建代码审查任务的最终数据集。此步骤需要大型语言模型对每个任务实例的元数据(如问题领域、难度和审查工作量)进行分类。
# Example with OpenAI GPT-4o
export OPENAI_API_KEY=<your_openai_api_key>
python -m swe_care.collect build_code_review_dataset \
    --graphql-prs-data-file "results/graphql_prs_data/<repo_owner>__<repo_name>_graphql_prs_data.jsonl" \
    --pr-classification-file "results/classify_prs_data/<repo_owner>__<repo_name>_pr_classification.jsonl" \
    --model "gpt-4o" \
    --model-provider "openai" \
    --model-args "temperature=0.7,top_p=0.9" \
    --output-dir "./results/dataset" \
    --tokens "your_github_pat"
  1. 提交代码审查数据文件的Pull Request

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions