Skip to content

Commit 3ccb7ff

Browse files
committed
update
1 parent b081606 commit 3ccb7ff

File tree

2 files changed

+19
-5
lines changed

2 files changed

+19
-5
lines changed

index.html

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -915,14 +915,14 @@ <h2 class="text-2xl font-bold text-slate-900 mb-6 text-center">Citation</h2>
915915
<p class="text-slate-500 text-sm">
916916
&copy; 2025 SGI-Bench.
917917
Licensed under
918-
<a href="https://github.com/InternScience/SGI-Bench/blob/main/LICENSE">
918+
<a href="https://github.com/InternScience/SGI-Bench/blob/main/LICENSE" target="_blank" rel="noopener noreferrer">
919919
MIT
920920
</a>.
921921
</p>
922922

923923
<p class="text-slate-500 text-sm">
924924
Contact:
925-
<a href="https://black-yt.github.io/">
925+
<a href="https://black-yt.github.io/" target="_blank" rel="noopener noreferrer">
926926
927927
</a>
928928
</p>

news_small.md

Lines changed: 17 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -31,7 +31,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
3131

3232
## 核心结果与洞见:今天的“强模型”,尚未成为“强科学家”
3333

34-
### 深度研究(Deep Research):逐步准确率高于严格匹配,长链路“结论崩塌”
34+
### 科学深度研究(Scientific Deep Research):逐步准确率高于严格匹配,长链路“结论崩塌”
3535

3636
任务模拟文献元分析与多跳检索,要求在明确约束下检索并整合跨来源证据、进行定量推理,输出可核验结论。
3737

@@ -48,7 +48,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
4848

4949
### 创意生成(Idea Generation):新颖度尚可,但可行性偏低
5050

51-
面向方法学与方案设计,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。
51+
面向总体思路与具体方案设计,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。
5252

5353
![图片9:创意生成评测示例](md_images/idea_case.png)
5454

@@ -100,7 +100,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
100100
实验结果:
101101

102102
![图片20:多模态科学推理的整体表现](md_images/mcq_metric.png)
103-
- 闭源整体更强:最佳闭源答案准确率约 41.9、推理有效性最高约 57.1
103+
- 闭源整体更强:最佳闭源答案准确率约 41.9、推理有效性最高约 71.3
104104
- 多数模型推理有效性高于答案准确率:难以实现推理链条的完全正确。
105105
- 推理类型上,因果推断与感知识别较稳;比较型最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,物理、生命等学科挑战较大。
106106
![图片21:按推理类型与学科的拆解](md_images/mcp_task_metric.png)
@@ -118,6 +118,20 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
118118

119119
这表明 SGI‑Bench 不止静态评测,还可在测试时借弱反馈不断涌现与进化。
120120

121+
### 智能体评测框架:简单,高效,定制化
122+
123+
传统评测框架大都基于固定的评测脚本,对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向“可定制评测与报告生成”设计SGIEvalAgent ,它由4部分构成:
124+
- 任务精选智能体:结合用户需求,按学科、任务类型、样本规模等选择评测题目。
125+
- 指标定制智能体:根据用户需求自定义评测指标。
126+
- 评测执行智能体:运行评测并得到分数。
127+
- 报告生成智能体:综合用户输入与评测结果,撰写评测报告。
128+
129+
![图片24:智能体评测框架](md_images/evaluation-framework.png)
130+
131+
你可以用自然语言描述评测意图(如“比较两款模型在跨学科创意生成上的严谨性”),系统将自动解析意图、选择题目、定制指标,执行推理与打分,最终输出带有可追溯证据链的评测报告与可复现的明细结果。
132+
133+
![图片25:用户自定义评测](md_images/idea_custom_metric_report.png)
134+
121135
---
122136

123137
## 结语:SGI-Bench 不止一个基准,更是一条路线图

0 commit comments

Comments
 (0)