We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent e1b404e commit a29b9a8Copy full SHA for a29b9a8
news_small.md
@@ -71,7 +71,7 @@ SGI‑Bench 采用“科学家对齐(scientist-aligned)”的任务构造:
71
- 每题含 5 个单测,最佳 Gemini‑3‑Pro 的严格通过率(全过 5 个单测)仅 36.64%,宽松通过率(至少过 1 个)41.98%,表明模型常能写对部分,但难以实现严格正确。
72
- 闭源模型略优于开源,但优势有限且分布重叠,“科学代码合成”仍是各架构共同短板。
73

74
-- 平滑执行率(无报错运行)多在 90%+,显示“能跑”与“算对”之间存在系统性鸿沟。
+- 平滑执行率(无报错运行)多在 90%+,显示“能跑”与“算对”之间存在鸿沟。
75
- 类型上,数据处理/预测建模较稳;数值计算与仿真最弱,受离散化、稳定性与约束处理影响。例:引力波体积估计中,前向累加(np.cumsum)与自适应积分(scipy.integrate.quad)差异巨大;前者累积误差经 χ(z) 影响 dV/dz,最终体积严重偏离。
76

77
0 commit comments