Add model_args for judge LLM (#1241)

haihongtran · Yunnglin · web-flow · commit 3a83299b78ea · 2026-03-23T11:10:07.000+08:00
* Add model_args for judge LLM

* Fix type hint for model_args in LLMJudge

* update doc

---------

Co-authored-by: Yunnglin &lt;mao.looper@qq.com&gt;
diff --git a/docs/en/get_started/parameters.md b/docs/en/get_started/parameters.md
@@ -174,6 +174,7 @@ LLM-as-a-Judge evaluation parameters using a judge model to determine correctnes
 | `system_prompt` | `str` | System prompt | - |
 | `prompt_template` | `str` | Prompt template | Auto-selected based on `score_type` |
 | `generation_config` | `dict` | Generation parameters (same as `--generation-config`) | - |
+| `model_args` | `dict` | Judge model loading parameters (same as `--model-args`), e.g. `{"default_headers": {"X-API-KEY": "your-api-key"}}` | `{}` |
 | `score_type` | `str` | Scoring method<br>• `pattern`: Judge if answer matches reference<br>• `numeric`: Score without reference (0-1) | `pattern` |
 | `score_pattern` | `str` | Regex to parse output | `pattern` mode: `(A\|B)`<br>`numeric` mode: `\[\[(\d+(?:\.\d+)?)\]\]` |
 | `score_mapping` | `dict` | Score mapping for `pattern` mode | `{'A': 1.0, 'B': 0.0}` |
diff --git a/docs/zh/get_started/parameters.md b/docs/zh/get_started/parameters.md
@@ -157,7 +157,7 @@ LLM-as-a-Judge评测参数，使用裁判模型判断正误：
 |------|------|------|--------|
 | `--judge-strategy` | `str` | 裁判模型策略<br>• `auto`: 根据数据集自动决定<br>• `llm`: 总是使用裁判模型<br>• `rule`: 只使用规则判断<br>• `llm_recall`: 规则失败后使用裁判模型 | `auto` |
 | `--judge-worker-num` | `int` | 裁判模型并发数 | `1` |
-| `--judge-model-args` | `str` | 裁判模型配置（JSON字符串），详见下表 | - |
+| `--judge-model-args` | `dict` | 裁判模型配置（JSON字符串），详见下表 | - |
 | `--analysis-report` | `bool` | 是否生成分析报告（自动判断语言） | `false` |
 
 ### judge-model-args 配置项
@@ -170,6 +170,7 @@ LLM-as-a-Judge评测参数，使用裁判模型判断正误：
 | `system_prompt` | `str` | 系统prompt | - |
 | `prompt_template` | `str` | Prompt模板 | 根据`score_type`自动选择 |
 | `generation_config` | `dict` | 生成参数（同`--generation-config`） | - |
+| `model_args` | `dict` | 裁判模型加载参数（同`--model-args`），例如`{"default_headers": {"X-API-KEY": "your-api-key"}}` | `{}` |
 | `score_type` | `str` | 打分方式<br>• `pattern`: 判断与参考答案是否相同<br>• `numeric`: 无参考答案打分（0-1） | `pattern` |
 | `score_pattern` | `str` | 解析输出的正则表达式 | `pattern`模式：`(A\|B)`<br>`numeric`模式：`\[\[(\d+(?:\.\d+)?)\]\]` |
 | `score_mapping` | `dict` | `pattern`模式的分数映射 | `{'A': 1.0, 'B': 0.0}` |
diff --git a/evalscope/metrics/llm_judge.py b/evalscope/metrics/llm_judge.py
@@ -54,6 +54,7 @@ def __init__(
         api_url: Optional[str] = None,
         model_id: Optional[str] = None,
         eval_type: Optional[str] = None,
+        model_args: Optional[Dict[str, Any]] = None,
         system_prompt: Optional[str] = None,
         prompt_template: Optional[str] = None,
         generation_config: Optional[Dict[str, Any]] = None,
@@ -70,6 +71,7 @@ def __init__(
             api_base (str, optional): API base URL
             model_id (str, optional): Model ID for LLM
             eval_type (str, optional): Evaluation LLM type for the judge
+            model_args (dict, optional): Additional model arguments for the judge
             system_prompt (str, optional): System prompt for the judge
             prompt_template (str, optional): Prompt template for the judge
             generation_config (dict, optional): Generation configuration for the judge
@@ -85,6 +87,7 @@ def __init__(
         self.eval_type = eval_type or EvalType.OPENAI_API
         self.system_prompt = system_prompt or os.environ.get('JUDGE_SYSTEM_PROMPT', None)
         self.generation_config = generation_config or {'temperature': 0.0, 'max_tokens': 4096}
+        self.model_args = model_args or {}
 
         # Default score mapping for A/B pattern
         self.score_type = score_type
@@ -112,6 +115,7 @@ def _init_server_adapter(self):
             base_url=self.api_url,
             api_key=self.api_key,
             config=GenerateConfig(**self.generation_config),
+            model_args=self.model_args,
         )
 
     def judge(