Skip to content

[B-7] 성능 평가 리포트 (판단 + RAG + 응답속도) #13

@sjy361872

Description

@sjy361872

설명

판단 Agent 및 RAG 파이프라인의 정량적 성능 평가를 수행합니다.

평가 지표

  • 판단 정확도 (Yes/No 일치율) → 목표 85%+
  • 근거 조항 적합성 (정답 조항 포함 여부) → 목표 80%+
  • RAG MRR → 목표 0.7+
  • RAG Recall@5
  • 평균 응답 시간 → 목표 5초 이내

TODO

  • 평가 데이터셋 준비
  • 베이스라인 vs 파인튜닝 비교
  • 각 지표 측정 및 리포트 작성

담당 파일

  • ai/finetuning/evaluate.py

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions