|
2 | 2 |
|
3 | 3 | 我们把“能否做科学”从口号变成刻度。基于实践探究模型(PIM)的四象限理论,我们提出 SGI 的可操作定义,并发布覆盖全流程的 SGI‑Bench。首轮结果显示:闭源旗舰 Gemini‑3‑Pro 以 SGI‑Score 33.83/100 取得 SOTA,但距离“会做研究”的门槛仍有显著差距。 |
4 | 4 |
|
5 | | -- 深度研究(Deep Research )答案准确率18.48%:最终答案严格匹配率偏低,长链路推理末端易崩塌; |
6 | | -- 创意生成(Idea Generation)平均得分 39.68:新颖与详尽度高,但“可行性”弱,关键实现细节不足; |
7 | | -- 干实验(Dry Experiment)代码通过率 36.64%:高 SER 并不等于科学正确,数值/仿真最薄弱; |
8 | | -- 湿实验(Wet Experiment)平均得分32.45:步骤序列相似度低、参数易错,时间与分支协调困难; |
9 | | -- 实验推理(Scientific Experimental Reasoning)答案准确率41.92%:因果尚可,比较型推理最难。 |
| 5 | +- 深度研究(Deep Research )答案准确率18.48%(Gemini‑3‑Pro):最终答案严格匹配率偏低,长链路推理末端易崩塌; |
| 6 | +- 创意生成(Idea Generation)平均得分 39.68(Gemini‑3‑Pro):新颖与详尽度高,但“可行性”弱,关键实现细节不足; |
| 7 | +- 干实验(Dry Experiment)代码通过率 36.64%(Gemini‑3‑Pro):高 SER 并不等于科学正确,数值/仿真最薄弱; |
| 8 | +- 湿实验(Wet Experiment)平均得分32.45(Gemini‑3‑Pro):步骤序列相似度低、参数易错,时间与分支协调困难; |
| 9 | +- 实验推理(Scientific Experimental Reasoning)答案准确率41.92%(Gemini‑3‑Pro):因果尚可,比较型推理最难。 |
10 | 10 |
|
11 | 11 | 一句话总结:在“科学通用智能”的刻度上,最强模型也仅三十余分,AI 离“像科学家一样做研究”仍需跨越数值稳健、实验规划与比较型多模态等关键门槛。 |
12 | 12 |
|
|
110 | 110 |
|
111 | 111 | - 工具增强的多智能体在逐步准确率上略有优势,但与纯模型相比差距并不显著;部分新模型(如 Grok‑4)在本基准上不如前代(Grok‑3),显示大规模训练并不保证科学推理稳健性。 |
112 | 112 |
|
| 113 | +- 同时,若干 Agent 系统在 EM 与 SLA 上不及多款 LLM,最佳 LLM 的 EM 亦可持平或超过最佳 Agent,整体分布高度重叠。 |
113 | 114 |  |
114 | 115 |
|
115 | 116 | - 分类型看,“数据/性质”类题最难,需跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体仍低于 30%,体现出元分析难度对模型能力的严苛要求。 |
|
120 | 121 |
|
121 | 122 |  |
122 | 123 |
|
123 | | -- 闭源模型在“新颖性(Novelty)与详尽度(Detailedness)”上整体更强,但在“可行性(Feasibility)”上普遍偏低。以 GPT‑5 为例:新颖性 76.08、详尽度 85.72、平均分(Average)55.40 为本项最佳,但可行性仅 18.87,表明“概念丰富 ≠ 可执行方案”。 |
| 124 | +- 闭源模型在“新颖性(Novelty)与详尽度(Detailedness)”上整体更强,但在“可行性(Feasibility)”上普遍偏低。以 GPT‑5 为例:有效性(Effectiveness)40.92、新颖性 76.08、详尽度 85.72、平均分(Average)55.40 为本项最佳,但可行性仅 18.87,表明“概念丰富 ≠ 可执行方案”。 |
124 | 125 | - 可行性最佳的闭源模型为 o3(22.90),显示其在“步骤‑参数‑资源”层面相对更落地,但仍远未达科研实践所需的稳健标准。 |
125 | 126 | - 开源侧整体趋势一致:例如 Kimi‑k2 详尽度 59.20 但可行性 18.74;开源可行性上限约在 20 分左右(如 Qwen3‑8B 20.58、Qwen3‑VL‑235B‑A22B 20.14),多数模型落在 14–20 区间,体现“想法能说清”与“方案能落地”之间的系统性落差。 |
126 | 127 | - 实施图谱需明确“步骤顺序/控制流(分支或迭代)/关键参数(数据来源、模型类别、训练设置)/模块间接口与依赖”,并给出可复现的评价指标与判别标准。 |
|
131 | 132 | 4) 流程接口不闭合(输入输出未对齐)、步骤顺序与依赖模糊,导致“创意→蓝图→执行”的闭环断裂。 |
132 | 133 |
|
133 | 134 | ### C. 干实验:可运行 ≠ 科学正确 |
134 | | -- “通过全部 5 个单元测试的比例(PassAll@5)”最佳为 36.64(Gemini‑3‑Pro);在宽松设置下“通过至少 1 次(PassAll@1)”可达 42.07,但与严格标准差距明显。 |
| 135 | +- “通过全部 5 个单元测试的比例(PassAll@5)”最佳为 36.64(Gemini‑3‑Pro);在中等设置下 PassAll@3 为 40.46(Gemini‑3‑Pro);在宽松设置下“通过至少 1 次(PassAll@1)”可达 42.07,但与严格标准差距明显。 |
135 | 136 |
|
| 137 | +- 闭源模型在 PassAll@k 上整体略优于开源,但优势有限且分布重叠,显示“科学代码合成”仍是各架构的共同短板。 |
136 | 138 |  |
137 | 139 |
|
138 | | -- 平滑运行率(Smooth Execution Rate)在多数前沿模型上超过 90%,但仍存在明显分化(如 Gemini‑2.5‑Flash/Pro、Qwen3‑8B、Llama‑4‑Scout、GPT‑5、GPT‑4o 较低),表明“能跑”与“算对”之间存在系统性鸿沟。 |
| 140 | +- 平滑运行率(Smooth Execution Rate)在多数前沿模型上超过 90%,但仍存在明显分化(如 Gemini‑2.5‑Flash/Pro、Qwen3‑8B、Llama‑4‑Scout、GPT‑5、GPT‑4o 较低),表明“能跑”与“算对”之间存在系统性鸿沟(最佳 98.85,Gemini‑3‑Pro)。 |
| 141 | +- 执行时间(Average Execution Time, AET)方面,最短为 13.94s(Gemini‑2.5‑Pro),但“更快”并不意味着“更准”。 |
139 | 142 | - 按功能类型看,数据处理/预测建模相对更稳;数值计算与仿真最薄弱,易受离散化、稳定性与约束处理影响。下例展示了在引力波体积估计中,前向累加(np.cumsum)与自适应积分(scipy.integrate.quad)的巨大差异:前者累积误差放大,进而通过 χ(z) 影响体积元素 dV/dz,导致最终体积严重偏离。 |
140 | 143 |
|
141 | 144 |  |
|
145 | 148 |  |
146 | 149 |
|
147 | 150 | ### D. 湿实验:动作时序、分支与参数选择是硬伤 |
148 | | -- 序列相似度(Sequence Similarity)整体偏低,最佳闭源模型约 35.5;参数准确率(Parameter Accuracy)最高约 40.6,部分开源模型在参数上可与闭源竞争。 |
| 151 | +- 序列相似度(Sequence Similarity)整体偏低,最佳闭源模型约 35.5;参数准确率(Parameter Accuracy)最高约 40.6,部分开源模型在参数上可与闭源竞争;部分闭源模型在参数上也出现明显下跌(约 20.7)。 |
149 | 152 | - 评估对参数“置换等价”做同一性处理(如动作参数对调但语义一致视为正确),因此参数准确率略显乐观;但三类错误高发:插入多余步骤、遗漏关键步骤与打乱有效步骤顺序。 |
150 | 153 |
|
151 | 154 |  |
| 155 | +- 综合评分(WetExp)最高为 37.92(Grok‑3),但整体仍处于偏低区间。 |
152 | 156 |
|
153 | 157 | - 在 NSCLC 抗 PD‑1 流程中,常见错误包括把纵向采样简化为一次采血、PBMC 仅在单一时间点分离、功能测定未按时间/刺激分组、基因组测序与免疫表型流程混用样本等,反映模型在时间协调、分支规划与样本管理上的薄弱。 |
154 | 158 |
|
155 | 159 |  |
156 | 160 |
|
157 | 161 | ### E. 多模态实验推理:因果推理尚可,比较推理最难 |
158 | 162 | - 多选准确率(Multi‑choice Accuracy)与推理有效性(Reasoning Validity)均显示闭源模型整体更强:最佳闭源多选准确率约 41.9,推理有效性最高约 57.1;但亦有开源模型在单项上超越部分闭源(如 Qwen3‑VL‑235B‑A22B 的推理有效性约 50.5,高于 GPT‑4o 的约 45.4)。 |
| 163 | +- 多数模型的推理有效性(RV)普遍高于多选准确率(MCA):即使最终选项不正确,解释往往仍保持部分逻辑一致性。 |
159 | 164 |
|
160 | 165 |  |
| 166 | +- 闭源模型的方差中等、整体较稳;仅少数模型(如 Intern‑S1‑mini)明显较低,提示规模对稳健的多模态科学推理具有重要作用。 |
161 | 167 |
|
162 | 168 | - 推理类型上,因果推断与感知识别相对更稳;比较型推理最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,其次化学、能源与神经科学;材料、生命、地球科学更具挑战,受视觉线索异质性与强背景依赖影响更大。 |
163 | 169 |
|
|
234 | 240 |
|
235 | 241 | 实验结果显示,模型在深度研究中虽然能按步骤推进,但准确率只有10%到20%,定量推理能力较弱;创意生成环节流畅但不够具体,方案难落地;干式实验中代码能运行,但通过率不高;湿式实验中流程存在遗漏和顺序错误;实验推理里因果推理表现较好,但多模态理解仍有难题。这些都说明了“语言流畅”和“科学认知”之间还有差距。另外,SGI具备“动态学习”能力——通过测试时强化学习和新颖性奖励,创意生成得到了提升,无需参考答案。 |
236 | 242 |
|
237 | | -总结来看,SGI-Bench不仅帮我们更清晰地理解什么是真正的科学智能,也指出了当前AI的短板。未来,结合更强的数理推理、规划性构思、可执行实验、多模态推理和动态学习,配合高效的工具生态,AI有望实现真正的科学发现,助力人类开拓未知领域。 |
| 243 | +总结来看,SGI-Bench不仅帮我们更清晰地理解什么是真正的科学智能,也指出了当前AI的短板。未来,结合更强的数理推理、规划性构思、可执行实验、多模态推理和动态学习,配合高效的工具生态,AI有望实现真正的科学发现,助力人类开拓未知领域。 |
0 commit comments