Skip to content

Commit d9eee16

Browse files
author
unknown
committed
update
1 parent 4d5e5cb commit d9eee16

File tree

4 files changed

+316
-13
lines changed

4 files changed

+316
-13
lines changed

news.md

Lines changed: 16 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -2,11 +2,11 @@
22

33
我们把“能否做科学”从口号变成刻度。基于实践探究模型(PIM)的四象限理论,我们提出 SGI 的可操作定义,并发布覆盖全流程的 SGI‑Bench。首轮结果显示:闭源旗舰 Gemini‑3‑Pro 以 SGI‑Score 33.83/100 取得 SOTA,但距离“会做研究”的门槛仍有显著差距。
44

5-
- 深度研究(Deep Research )答案准确率18.48%:最终答案严格匹配率偏低,长链路推理末端易崩塌;
6-
- 创意生成(Idea Generation)平均得分 39.68:新颖与详尽度高,但“可行性”弱,关键实现细节不足;
7-
- 干实验(Dry Experiment)代码通过率 36.64%:高 SER 并不等于科学正确,数值/仿真最薄弱;
8-
- 湿实验(Wet Experiment)平均得分32.45:步骤序列相似度低、参数易错,时间与分支协调困难;
9-
- 实验推理(Scientific Experimental Reasoning)答案准确率41.92%:因果尚可,比较型推理最难。
5+
- 深度研究(Deep Research )答案准确率18.48%(Gemini‑3‑Pro):最终答案严格匹配率偏低,长链路推理末端易崩塌;
6+
- 创意生成(Idea Generation)平均得分 39.68(Gemini‑3‑Pro):新颖与详尽度高,但“可行性”弱,关键实现细节不足;
7+
- 干实验(Dry Experiment)代码通过率 36.64%(Gemini‑3‑Pro):高 SER 并不等于科学正确,数值/仿真最薄弱;
8+
- 湿实验(Wet Experiment)平均得分32.45(Gemini‑3‑Pro):步骤序列相似度低、参数易错,时间与分支协调困难;
9+
- 实验推理(Scientific Experimental Reasoning)答案准确率41.92%(Gemini‑3‑Pro):因果尚可,比较型推理最难。
1010

1111
一句话总结:在“科学通用智能”的刻度上,最强模型也仅三十余分,AI 离“像科学家一样做研究”仍需跨越数值稳健、实验规划与比较型多模态等关键门槛。
1212

@@ -110,6 +110,7 @@
110110

111111
- 工具增强的多智能体在逐步准确率上略有优势,但与纯模型相比差距并不显著;部分新模型(如 Grok‑4)在本基准上不如前代(Grok‑3),显示大规模训练并不保证科学推理稳健性。
112112

113+
- 同时,若干 Agent 系统在 EM 与 SLA 上不及多款 LLM,最佳 LLM 的 EM 亦可持平或超过最佳 Agent,整体分布高度重叠。
113114
![图片13:Agents 在深度研究任务的表现](md_images/Agents_deep_research_metrics.png)
114115

115116
- 分类型看,“数据/性质”类题最难,需跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体仍低于 30%,体现出元分析难度对模型能力的严苛要求。
@@ -120,7 +121,7 @@
120121

121122
![图片15:创意生成的指标结果](md_images/idea_metrics.png)
122123

123-
- 闭源模型在“新颖性(Novelty)与详尽度(Detailedness)”上整体更强,但在“可行性(Feasibility)”上普遍偏低。以 GPT‑5 为例:新颖性 76.08、详尽度 85.72、平均分(Average)55.40 为本项最佳,但可行性仅 18.87,表明“概念丰富 ≠ 可执行方案”。
124+
- 闭源模型在“新颖性(Novelty)与详尽度(Detailedness)”上整体更强,但在“可行性(Feasibility)”上普遍偏低。以 GPT‑5 为例:有效性(Effectiveness)40.92、新颖性 76.08、详尽度 85.72、平均分(Average)55.40 为本项最佳,但可行性仅 18.87,表明“概念丰富 ≠ 可执行方案”。
124125
- 可行性最佳的闭源模型为 o3(22.90),显示其在“步骤‑参数‑资源”层面相对更落地,但仍远未达科研实践所需的稳健标准。
125126
- 开源侧整体趋势一致:例如 Kimi‑k2 详尽度 59.20 但可行性 18.74;开源可行性上限约在 20 分左右(如 Qwen3‑8B 20.58、Qwen3‑VL‑235B‑A22B 20.14),多数模型落在 14–20 区间,体现“想法能说清”与“方案能落地”之间的系统性落差。
126127
- 实施图谱需明确“步骤顺序/控制流(分支或迭代)/关键参数(数据来源、模型类别、训练设置)/模块间接口与依赖”,并给出可复现的评价指标与判别标准。
@@ -131,11 +132,13 @@
131132
4) 流程接口不闭合(输入输出未对齐)、步骤顺序与依赖模糊,导致“创意→蓝图→执行”的闭环断裂。
132133

133134
### C. 干实验:可运行 ≠ 科学正确
134-
- “通过全部 5 个单元测试的比例(PassAll@5)”最佳为 36.64(Gemini‑3‑Pro);在宽松设置下“通过至少 1 次(PassAll@1)”可达 42.07,但与严格标准差距明显。
135+
- “通过全部 5 个单元测试的比例(PassAll@5)”最佳为 36.64(Gemini‑3‑Pro);在中等设置下 PassAll@3 为 40.46(Gemini‑3‑Pro);在宽松设置下“通过至少 1 次(PassAll@1)”可达 42.07,但与严格标准差距明显。
135136

137+
- 闭源模型在 PassAll@k 上整体略优于开源,但优势有限且分布重叠,显示“科学代码合成”仍是各架构的共同短板。
136138
![图片16:干实验通过率](md_images/dry_metrics.png)
137139

138-
- 平滑运行率(Smooth Execution Rate)在多数前沿模型上超过 90%,但仍存在明显分化(如 Gemini‑2.5‑Flash/Pro、Qwen3‑8B、Llama‑4‑Scout、GPT‑5、GPT‑4o 较低),表明“能跑”与“算对”之间存在系统性鸿沟。
140+
- 平滑运行率(Smooth Execution Rate)在多数前沿模型上超过 90%,但仍存在明显分化(如 Gemini‑2.5‑Flash/Pro、Qwen3‑8B、Llama‑4‑Scout、GPT‑5、GPT‑4o 较低),表明“能跑”与“算对”之间存在系统性鸿沟(最佳 98.85,Gemini‑3‑Pro)。
141+
- 执行时间(Average Execution Time, AET)方面,最短为 13.94s(Gemini‑2.5‑Pro),但“更快”并不意味着“更准”。
139142
- 按功能类型看,数据处理/预测建模相对更稳;数值计算与仿真最薄弱,易受离散化、稳定性与约束处理影响。下例展示了在引力波体积估计中,前向累加(np.cumsum)与自适应积分(scipy.integrate.quad)的巨大差异:前者累积误差放大,进而通过 χ(z) 影响体积元素 dV/dz,导致最终体积严重偏离。
140143

141144
![图片17:不同类型的函数补全任务的表现](md_images/dry_task_metric.png)
@@ -145,19 +148,22 @@
145148
![图片18:干实验案例,数值方法差异导致科学量偏差](md_images/code_case2.png)
146149

147150
### D. 湿实验:动作时序、分支与参数选择是硬伤
148-
- 序列相似度(Sequence Similarity)整体偏低,最佳闭源模型约 35.5;参数准确率(Parameter Accuracy)最高约 40.6,部分开源模型在参数上可与闭源竞争。
151+
- 序列相似度(Sequence Similarity)整体偏低,最佳闭源模型约 35.5;参数准确率(Parameter Accuracy)最高约 40.6,部分开源模型在参数上可与闭源竞争;部分闭源模型在参数上也出现明显下跌(约 20.7)
149152
- 评估对参数“置换等价”做同一性处理(如动作参数对调但语义一致视为正确),因此参数准确率略显乐观;但三类错误高发:插入多余步骤、遗漏关键步骤与打乱有效步骤顺序。
150153

151154
![图片19:湿实验顺序相似度与参数准确率](md_images/wet_metrics.png)
155+
- 综合评分(WetExp)最高为 37.92(Grok‑3),但整体仍处于偏低区间。
152156

153157
- 在 NSCLC 抗 PD‑1 流程中,常见错误包括把纵向采样简化为一次采血、PBMC 仅在单一时间点分离、功能测定未按时间/刺激分组、基因组测序与免疫表型流程混用样本等,反映模型在时间协调、分支规划与样本管理上的薄弱。
154158

155159
![图片20:复杂湿实验案例,动作时间与分支管理的失败](md_images/wet_case2.png)
156160

157161
### E. 多模态实验推理:因果推理尚可,比较推理最难
158162
- 多选准确率(Multi‑choice Accuracy)与推理有效性(Reasoning Validity)均显示闭源模型整体更强:最佳闭源多选准确率约 41.9,推理有效性最高约 57.1;但亦有开源模型在单项上超越部分闭源(如 Qwen3‑VL‑235B‑A22B 的推理有效性约 50.5,高于 GPT‑4o 的约 45.4)。
163+
- 多数模型的推理有效性(RV)普遍高于多选准确率(MCA):即使最终选项不正确,解释往往仍保持部分逻辑一致性。
159164

160165
![图片21:多模态科学推理的整体表现](md_images/mcq_metric.png)
166+
- 闭源模型的方差中等、整体较稳;仅少数模型(如 Intern‑S1‑mini)明显较低,提示规模对稳健的多模态科学推理具有重要作用。
161167

162168
- 推理类型上,因果推断与感知识别相对更稳;比较型推理最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,其次化学、能源与神经科学;材料、生命、地球科学更具挑战,受视觉线索异质性与强背景依赖影响更大。
163169

@@ -234,4 +240,4 @@
234240

235241
实验结果显示,模型在深度研究中虽然能按步骤推进,但准确率只有10%到20%,定量推理能力较弱;创意生成环节流畅但不够具体,方案难落地;干式实验中代码能运行,但通过率不高;湿式实验中流程存在遗漏和顺序错误;实验推理里因果推理表现较好,但多模态理解仍有难题。这些都说明了“语言流畅”和“科学认知”之间还有差距。另外,SGI具备“动态学习”能力——通过测试时强化学习和新颖性奖励,创意生成得到了提升,无需参考答案。
236242

237-
总结来看,SGI-Bench不仅帮我们更清晰地理解什么是真正的科学智能,也指出了当前AI的短板。未来,结合更强的数理推理、规划性构思、可执行实验、多模态推理和动态学习,配合高效的工具生态,AI有望实现真正的科学发现,助力人类开拓未知领域。
243+
总结来看,SGI-Bench不仅帮我们更清晰地理解什么是真正的科学智能,也指出了当前AI的短板。未来,结合更强的数理推理、规划性构思、可执行实验、多模态推理和动态学习,配合高效的工具生态,AI有望实现真正的科学发现,助力人类开拓未知领域。

0 commit comments

Comments
 (0)