@@ -31,7 +31,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
3131
3232## 核心结果与洞见:今天的“强模型”,尚未成为“强科学家”
3333
34- ### 深度研究( Deep Research):逐步准确率高于严格匹配,长链路“结论崩塌”
34+ ### 科学深度研究(Scientific Deep Research):逐步准确率高于严格匹配,长链路“结论崩塌”
3535
3636任务模拟文献元分析与多跳检索,要求在明确约束下检索并整合跨来源证据、进行定量推理,输出可核验结论。
3737
@@ -48,7 +48,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
4848
4949### 创意生成(Idea Generation):新颖度尚可,但可行性偏低
5050
51- 面向方法学与方案设计 ,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。
51+ 面向总体思路与具体方案设计 ,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。
5252
5353![ 图片9:创意生成评测示例] ( md_images/idea_case.png )
5454
@@ -100,7 +100,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
100100实验结果:
101101
102102![ 图片20:多模态科学推理的整体表现] ( md_images/mcq_metric.png )
103- - 闭源整体更强:最佳闭源答案准确率约 41.9、推理有效性最高约 57.1 。
103+ - 闭源整体更强:最佳闭源答案准确率约 41.9、推理有效性最高约 71.3 。
104104- 多数模型推理有效性高于答案准确率:难以实现推理链条的完全正确。
105105- 推理类型上,因果推断与感知识别较稳;比较型最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,物理、生命等学科挑战较大。
106106![ 图片21:按推理类型与学科的拆解] ( md_images/mcp_task_metric.png )
@@ -118,6 +118,20 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
118118
119119这表明 SGI‑Bench 不止静态评测,还可在测试时借弱反馈不断涌现与进化。
120120
121+ ### 智能体评测框架:简单,高效,定制化
122+
123+ 传统评测框架大都基于固定的评测脚本,对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向“可定制评测与报告生成”设计SGIEvalAgent ,它由4部分构成:
124+ - 任务精选智能体:结合用户需求,按学科、任务类型、样本规模等选择评测题目。
125+ - 指标定制智能体:根据用户需求自定义评测指标。
126+ - 评测执行智能体:运行评测并得到分数。
127+ - 报告生成智能体:综合用户输入与评测结果,撰写评测报告。
128+
129+ ![ 图片24:智能体评测框架] ( md_images/evaluation-framework.png )
130+
131+ 你可以用自然语言描述评测意图(如“比较两款模型在跨学科创意生成上的严谨性”),系统将自动解析意图、选择题目、定制指标,执行推理与打分,最终输出带有可追溯证据链的评测报告与可复现的明细结果。
132+
133+ ![ 图片25:用户自定义评测] ( md_images/idea_custom_metric_report.png )
134+
121135---
122136
123137## 结语:SGI-Bench 不止一个基准,更是一条路线图
0 commit comments