MigoXLab · e06084 · Dec 16, 2025 · Dec 16, 2025
diff --git a/docs/rag_evaluation_metrics_zh.md b/docs/rag_evaluation_metrics_zh.md
@@ -27,7 +27,7 @@ python examples/rag/dataset_rag_eval_baseline.py
 python examples/rag/sdk_rag_eval.py
 
 # 模拟RAG系统并评估
-python examples/rag/eval_with_mock_rag.py
+python examples/rag/e2e_RAG_eval_with_mockRAG_fiqa.py
 ```
 
 ### 2. SDK方式 - 单个评估

diff --git a/examples/rag/dataset_rag_eval_baseline.py b/examples/rag/dataset_rag_eval_baseline.py
@@ -79,7 +79,7 @@ def print_metrics_summary(summary: SummaryModel):
         metrics_summary = summary.get_metrics_score_summary(field_key)
         sorted_metrics = sorted(metrics_summary.items(), key=lambda x: x[1], reverse=True)
 
-        print(f"\n  📈 指标排名（从高到低）:")
+        print("\n  📈 指标排名（从高到低）:")
         for i, (metric_name, avg_score) in enumerate(sorted_metrics, 1):
             display_name = metric_name.replace("LLMRAG", "")
             print(f"    {i}. {display_name}: {avg_score:.2f}")