Update eval_simpleqa_benchmark.py

codelion · codelion · commit c133b7b335aa · 2025-08-15T20:39:18.000+08:00
diff --git a/scripts/eval_simpleqa_benchmark.py b/scripts/eval_simpleqa_benchmark.py
@@ -232,7 +232,8 @@ def query_optillm(self, question: str) -> Tuple[str, bool]:
                 model=model_name,
                 messages=messages,
                 extra_body=extra_body if extra_body else None,
-                max_tokens=4096
+                max_tokens=4096,
+                temperature=0.6
             )
             
             answer = response.choices[0].message.content
@@ -259,7 +260,7 @@ def grade_response(self, question: str, gold_answer: str, response: str) -> str:
             grader_response = self.grader_client.chat.completions.create(
                 model=self.grader_model,
                 messages=[{"role": "user", "content": grading_prompt}],
-                temperature=0.0,
+                temperature=0.6,
                 max_tokens=4096
             )