Skip to content

Commit 4cee32c

Browse files
authored
update readme
Updated repository link and improved environment dependency instructions.
1 parent 2aea412 commit 4cee32c

File tree

1 file changed

+7
-4
lines changed

1 file changed

+7
-4
lines changed

docs/zh-CN/Quickstart.md

Lines changed: 7 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@
77
### 安装
88

99
```bash
10-
git clone https://github.com/open-compass/SciEvalKit.git
10+
git clone https://github.com/InternScience/SciEvalKit.git
1111
cd SciEvalKit
1212
pip install -e .
1313
```
@@ -185,11 +185,14 @@ python run.py --config config.json
185185
* 评测时用到了模型评估,且使用方式和框架中提供的模型访问并不兼容。
186186
* 如果想使用其他模型评估而不是默认的 GPT-4o,需单独指定 `base_url`, `api_key`(默认读取环境中的 `OPENAI_API_KEY`, `OPENAI_API_BASE`,运行前需指定)。
187187
* **AstroVisBench:**
188-
* **环境依赖:** 运行前需要按照 [官方说明] 下载运行依赖环境,并在环境变量中指定 `AstroVisBench_Env` 的值。
188+
* **环境依赖:** 运行前需要按照 [官方说明](https://github.com/SebaJoe/AstroVisBench) 下载运行依赖环境,并在环境变量中指定 `AstroVisBench_Env` 的值。
189189
* **Python 环境:** 由于其运行 Python 环境比较复杂,建议单独建立一个环境再次安装本项目依赖,然后按照官方团队的指示安装依赖,以免产生冲突和拖慢测试其他数据集的启动速度。
190190
* **并发设置:** 数据集评测设置了并发逻辑,默认为 4,可通过 `--judge-args '{"max_workers": <nums>}'` 进行指定。
191-
* **评测模型:** 该模型需要用到 Claude 3.5 Sonnet 进行评测,需要配置 `ANTHROPIC_API_KEY` 环境变量。
192-
191+
* **评测模型:** 该模型需要用到 Claude 4.5 Sonnet 进行评测,需要配置 `ANTHROPIC_API_KEY` 环境变量。
192+
* **评测文件:** 框架默认将模型的推理结果存储在`xlsx`格式的文件中以方便查看,但是对于AstroVisBench来说数据中的某些字段会超出xlsx单元格的长度限制,需要设置环境变量PRED_FORMAT为`json``tsv`(目前只支持这三种格式)。
193+
* **SciCode:**
194+
* **环境依赖:** 运行前需要按照 [官方说明](https://github.com/scicode-bench/SciCode) 下载运行依赖文件`test_data.h5`,并放置在`scieval/dataset/SciCode/eval/data`目录下。
195+
* **评测文件:** 框架默认将模型的推理结果存储在`xlsx`格式的文件中以方便查看,但是对于SciCode来说部分模型如`deepseek-R1`的输出长度可能会超出xlxs单元格长度限制,此时需要设置环境变量PRED_FORMAT为`json``tsv`(目前只支持这三种格式)
193196
### 默认评判模型列表
194197

195198
以下数据集在评估阶段默认使用特定的模型作为 Judge:

0 commit comments

Comments
 (0)