Skip to content

Commit a29b9a8

Browse files
author
unknown
committed
update
1 parent e1b404e commit a29b9a8

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

news_small.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -71,7 +71,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
7171
- 每题含 5 个单测,最佳 Gemini‑3‑Pro 的严格通过率(全过 5 个单测)仅 36.64%,宽松通过率(至少过 1 个)41.98%,表明模型常能写对部分,但难以实现严格正确。
7272
- 闭源模型略优于开源,但优势有限且分布重叠,“科学代码合成”仍是各架构共同短板。
7373
![图片13:不同类型的函数补全任务的表现](md_images/dry_task_metric.png)
74-
- 平滑执行率(无报错运行)多在 90%+,显示“能跑”与“算对”之间存在系统性鸿沟
74+
- 平滑执行率(无报错运行)多在 90%+,显示“能跑”与“算对”之间存在鸿沟
7575
- 类型上,数据处理/预测建模较稳;数值计算与仿真最弱,受离散化、稳定性与约束处理影响。例:引力波体积估计中,前向累加(np.cumsum)与自适应积分(scipy.integrate.quad)差异巨大;前者累积误差经 χ(z) 影响 dV/dz,最终体积严重偏离。
7676
![图片14:干实验案例,数值方法差异导致科学量偏差](md_images/code_case2.png)
7777

0 commit comments

Comments
 (0)