Skip to content

Commit 7c36ce4

Browse files
committed
fix: 修复代码格式和尾部空白问题
1 parent a1d84d5 commit 7c36ce4

File tree

2 files changed

+34
-37
lines changed

2 files changed

+34
-37
lines changed

cookbooks/zero_shot_evaluation/report_generator.py

Lines changed: 6 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -68,9 +68,7 @@ def _prepare_context(
6868
original_details = [d for d in details if d.order == "original"]
6969

7070
# Format rankings
71-
rankings_text = "\n".join(
72-
f"{i+1}. {name}: {rate:.1%}" for i, (name, rate) in enumerate(result.rankings)
73-
)
71+
rankings_text = "\n".join(f"{i+1}. {name}: {rate:.1%}" for i, (name, rate) in enumerate(result.rankings))
7472

7573
# Format rubrics
7674
rubrics_text = "\n".join(f"- {r}" for r in rubrics)
@@ -105,9 +103,7 @@ def _prepare_context(
105103

106104
async def _call_llm(self, prompt: str) -> str:
107105
"""Call LLM with given prompt."""
108-
lang_instruction = (
109-
"Output in Chinese (中文)." if self.language == "zh" else "Output in English."
110-
)
106+
lang_instruction = "Output in Chinese (中文)." if self.language == "zh" else "Output in English."
111107
messages = [
112108
{"role": "system", "content": f"You are an expert AI evaluation analyst. {lang_instruction}"},
113109
{"role": "user", "content": prompt},
@@ -147,13 +143,15 @@ async def _gen_ranking_explanation(self, ctx: dict) -> str:
147143

148144
# Best model wins: either (model_a=best and winner=model_a) or (model_b=best and winner=model_b)
149145
winning_examples = [
150-
d for d in ctx["all_details"]
146+
d
147+
for d in ctx["all_details"]
151148
if (d.model_a == best and d.winner == "model_a") or (d.model_b == best and d.winner == "model_b")
152149
][:2]
153150

154151
# Best model loses: either (model_a=best and winner=model_b) or (model_b=best and winner=model_a)
155152
losing_examples = [
156-
d for d in ctx["all_details"]
153+
d
154+
for d in ctx["all_details"]
157155
if (d.model_a == best and d.winner == "model_b") or (d.model_b == best and d.winner == "model_a")
158156
][:1]
159157

@@ -271,4 +269,3 @@ def _format_win_matrix(self, win_matrix: dict) -> str:
271269
for model_b, rate in opponents.items():
272270
lines.append(f" {model_a} vs {model_b}: {rate:.1%}")
273271
return "\n".join(lines)
274-

evaluation_results/oncology_translation/evaluation_report.md

Lines changed: 28 additions & 28 deletions
Original file line numberDiff line numberDiff line change
@@ -27,15 +27,15 @@
2727
### 二、关键差异分析:qwen-plus vs. 其他模型
2828

2929
#### 1. **vs. qwen-turbo(39.3%):风格与精度的差距明显**
30-
qwen-turbo 虽然推理速度快(“turbo”命名暗示其效率导向),但在医学翻译这类高精度任务中表现较弱。
30+
qwen-turbo 虽然推理速度快(“turbo”命名暗示其效率导向),但在医学翻译这类高精度任务中表现较弱。
3131
-**Example 1** 中,qwen-plus 使用主动语态(*“experienced disease progression”*),而 qwen-turbo(假设为 Response B)采用被动语态(*“disease progression occurred”*),虽语法正确,但不符合医学英语偏好简洁、直接表达的趋势。
3232
-**Example 2** 中,qwen-plus 正确使用现在时 *“harbors EGFR L858R mutation”*,准确反映基因突变的持续存在;而 qwen-turbo 使用过去时 *“harbored”*,可能误导读者认为突变已消失,**损害了临床忠实度**
3333
- 此外,qwen-plus 更倾向于使用医学文献中惯用的动词如 *“revealed”*(用于检测结果),而非泛化表达,体现出更强的**术语惯例一致性**
3434

3535
> **结论**:qwen-turbo 在速度与通用性上可能有优势,但在专业医学翻译所需的精确性、时态逻辑和文体规范上明显逊色。
3636
3737
#### 2. **vs. qwen3-32b(42.9%):大模型参数≠临床翻译优势**
38-
尽管 qwen3-32b 是参数量更大的基础模型,理论上具备更强的语言建模能力,但在本任务中仅略优于 qwen-turbo,远落后于 qwen-plus。
38+
尽管 qwen3-32b 是参数量更大的基础模型,理论上具备更强的语言建模能力,但在本任务中仅略优于 qwen-turbo,远落后于 qwen-plus。
3939
- 值得注意的是,在 **Example 3** 中,**qwen3-32b 实际胜出**:其使用 *“Following an R0 resection”* 比 qwen-plus 的 *“After undergoing R0 resection”* 更简洁流畅,体现了良好的医学英语语感。
4040
- 然而,这种优势是**局部且偶发的**。整体来看,qwen3-32b 在关键临床要素(如突变状态时态、治疗线数表述、生物标志物命名)上不如 qwen-plus 稳定。
4141
- 胜率矩阵显示,qwen3-32b 与 qwen-turbo 互有胜负(各 50%),说明其表现波动较大,缺乏 qwen-plus 那种**系统性优势**
@@ -80,61 +80,61 @@ qwen-turbo 虽然推理速度快(“turbo”命名暗示其效率导向),
8080

8181
### **1. qwen-plus**
8282

83-
**总体评估:**
83+
**总体评估:**
8484
qwen-plus 在本次评估中表现最佳,胜率最高(9胜5负),显示出对肿瘤学术语、临床语境和医学写作风格的较强把握能力。其翻译在准确性与语言流畅性之间取得了良好平衡。
8585

86-
**关键优势:**
87-
- **术语准确性高**:能正确使用国际通用的肿瘤学术语,如基因突变命名(如“EGFR L858R mutation”)和药物名称(如“osimertinib”)。
88-
- **语言风格符合医学规范**:偏好使用更地道的医学表达,例如“within the normal range”、“revealed”等,体现出对英文医学文献惯用语的熟悉。
86+
**关键优势:**
87+
- **术语准确性高**:能正确使用国际通用的肿瘤学术语,如基因突变命名(如“EGFR L858R mutation”)和药物名称(如“osimertinib”)。
88+
- **语言风格符合医学规范**:偏好使用更地道的医学表达,例如“within the normal range”、“revealed”等,体现出对英文医学文献惯用语的熟悉。
8989
- **句式简洁流畅**:常采用主动语态(如“experienced disease progression”),使句子更具可读性和临床报告感。
9090

91-
**关键弱点:**
92-
- 虽然整体表现优异,但在少数案例中可能略显简洁而牺牲部分细节(未在样本理由中明确体现,但胜率非全胜说明仍有提升空间)。
91+
**关键弱点:**
92+
- 虽然整体表现优异,但在少数案例中可能略显简洁而牺牲部分细节(未在样本理由中明确体现,但胜率非全胜说明仍有提升空间)。
9393

94-
**改进建议:**
95-
- 在保持简洁的同时,确保所有临床细节(如时间顺序、治疗线数)无遗漏;
94+
**改进建议:**
95+
- 在保持简洁的同时,确保所有临床细节(如时间顺序、治疗线数)无遗漏;
9696
- 可进一步强化对复杂治疗方案缩写(如FOLFOXIRI)的标准格式一致性检查。
9797

9898
---
9999

100100
### **2. qwen3-32b**
101101

102-
**总体评估:**
102+
**总体评估:**
103103
qwen3-32b 表现中等(6胜8负),具备基本的医学翻译能力,但在术语一致性、时态使用和文体规范方面偶有偏差,导致在与qwen-plus对比时处于劣势。
104104

105-
**关键优势:**
106-
- **部分场景下语言更精炼**:如使用“Following an R0 resection”体现对专业缩写的正确理解和简洁表达;
105+
**关键优势:**
106+
- **部分场景下语言更精炼**:如使用“Following an R0 resection”体现对专业缩写的正确理解和简洁表达;
107107
- **整体临床含义传达准确**:未出现重大语义扭曲或术语误译。
108108

109-
**关键弱点:**
110-
- **时态使用不一致**:例如未能统一使用现在时描述持续存在的基因状态(应为“harbors”而非过去时),违反医学写作惯例;
111-
- **文体略显口语化或冗余**:如使用“combined with”而非标准缩写格式(如“FOLFIRI + bevacizumab”),不符合同行评审文献风格;
109+
**关键弱点:**
110+
- **时态使用不一致**:例如未能统一使用现在时描述持续存在的基因状态(应为“harbors”而非过去时),违反医学写作惯例;
111+
- **文体略显口语化或冗余**:如使用“combined with”而非标准缩写格式(如“FOLFIRI + bevacizumab”),不符合同行评审文献风格;
112112
- **被动语态或措辞不够地道**:相比“revealed”,可能使用了较弱的动词,影响专业感。
113113

114-
**改进建议:**
115-
- 强化医学英语时态规则训练(如遗传特征、疾病状态用现在时);
116-
- 建立标准肿瘤学缩写与组合疗法的格式库,确保输出符合ASCO、NCCN等指南中的表述惯例;
114+
**改进建议:**
115+
- 强化医学英语时态规则训练(如遗传特征、疾病状态用现在时);
116+
- 建立标准肿瘤学缩写与组合疗法的格式库,确保输出符合ASCO、NCCN等指南中的表述惯例;
117117
- 优化动词选择,优先采用医学文献高频动词(如“demonstrated”, “revealed”, “showed”)。
118118

119119
---
120120

121121
### **3. qwen-turbo**
122122

123-
**总体评估:**
123+
**总体评估:**
124124
qwen-turbo 与 qwen3-32b 胜率相同(6胜8负),但其问题模式显示其在基础准确性上尚可,但在语言风格和专业细节处理上稳定性不足。
125125

126-
**关键优势:**
127-
- **在某些案例中展现出良好的时态意识**:如正确使用“harbors”描述基因突变状态;
126+
**关键优势:**
127+
- **在某些案例中展现出良好的时态意识**:如正确使用“harbors”描述基因突变状态;
128128
- **核心临床信息基本完整**:未出现严重漏译或误译。
129129

130-
**关键弱点:**
131-
- **语言流畅性与地道性不足**:多次因表达不如对手“idiomatic”或“concise”而落败;
132-
- **被动或冗长句式较多**:影响医学文本所需的清晰与效率;
130+
**关键弱点:**
131+
- **语言流畅性与地道性不足**:多次因表达不如对手“idiomatic”或“concise”而落败;
132+
- **被动或冗长句式较多**:影响医学文本所需的清晰与效率;
133133
- **对细微术语差异敏感度较低**:如“within the normal range”这类固定搭配未能稳定输出。
134134

135-
**改进建议:**
136-
- 针对医学英语常用短语和固定搭配进行专项微调(如实验室值、影像学描述);
137-
- 提升句式多样性控制,在保证准确前提下优先选择主动语态和紧凑结构;
135+
**改进建议:**
136+
- 针对医学英语常用短语和固定搭配进行专项微调(如实验室值、影像学描述);
137+
- 提升句式多样性控制,在保证准确前提下优先选择主动语态和紧凑结构;
138138
- 引入更多高质量肿瘤学平行语料(如NEJM、JCO摘要)进行风格对齐训练。
139139

140140
---

0 commit comments

Comments
 (0)