[Fix] fix sample num and peer evaluator in SciReasoner (#2378)

Myhs-phz · web-flow · commit eaf6ef25f1bf · 2026-01-05T17:05:33.000+08:00
diff --git a/opencompass/configs/datasets/SciReasoner/peer_gen.py b/opencompass/configs/datasets/SciReasoner/peer_gen.py
@@ -111,28 +111,48 @@
         dataset_postprocessor=dict(type=PEER_postprocess_default),
     )
 
-
-
-
-    PEER_datasets.append(
-        dict(
-            abbr=f'SciReasoner-PEER_{task}',
-            type=PEER_Dataset,
-            path='opencompass/SciReasoner-PEER',
-            task=task,
-            reader_cfg=reader_cfg,
-            infer_cfg=infer_cfg,
-            eval_cfg=cascade_eval_llm_cfg),
-    )
-    mini_PEER_datasets.append(
-        dict(
-            abbr=f'SciReasoner-PEER_{task}-mini',
-            type=PEER_Dataset,
-            path='opencompass/SciReasoner-PEER',
-            task=task,
-            mini_set=True,
-            reader_cfg=reader_cfg,
-            infer_cfg=infer_cfg,
-            eval_cfg=cascade_eval_llm_cfg),
-    )
+    if task != 'stability':
+        PEER_datasets.append(
+            dict(
+                abbr=f'SciReasoner-PEER_{task}',
+                type=PEER_Dataset,
+                path='opencompass/SciReasoner-PEER',
+                task=task,
+                reader_cfg=reader_cfg,
+                infer_cfg=infer_cfg,
+                eval_cfg=cascade_eval_llm_cfg),
+        )
+        mini_PEER_datasets.append(
+            dict(
+                abbr=f'SciReasoner-PEER_{task}-mini',
+                type=PEER_Dataset,
+                path='opencompass/SciReasoner-PEER',
+                task=task,
+                mini_set=True,
+                reader_cfg=reader_cfg,
+                infer_cfg=infer_cfg,
+                eval_cfg=cascade_eval_llm_cfg),
+        )
+    else:
+        PEER_datasets.append(
+            dict(
+                abbr=f'SciReasoner-PEER_{task}',
+                type=PEER_Dataset,
+                path='opencompass/SciReasoner-PEER',
+                task=task,
+                reader_cfg=reader_cfg,
+                infer_cfg=infer_cfg,
+                eval_cfg=eval_stability_cfg),
+        )
+        mini_PEER_datasets.append(
+            dict(
+                abbr=f'SciReasoner-PEER_{task}-mini',
+                type=PEER_Dataset,
+                path='opencompass/SciReasoner-PEER',
+                task=task,
+                mini_set=True,
+                reader_cfg=reader_cfg,
+                infer_cfg=infer_cfg,
+                eval_cfg=eval_stability_cfg),
+        )
 
diff --git a/opencompass/datasets/SciReasoner/LLM4Chem/evaluator.py b/opencompass/datasets/SciReasoner/LLM4Chem/evaluator.py
@@ -58,7 +58,7 @@ def load(path, task, max_cut=-1, mini_set=False, hf_hub=False):
         if mini_set:
             import random
             random.seed(1024)
-            test_data = random.sample(test_data, 50)
+            test_data = random.sample(test_data, min(len(test_data), 150))
             random.seed()
 
         dataset = DatasetDict({
diff --git a/opencompass/datasets/SciReasoner/Mol_Instructions/biotext.py b/opencompass/datasets/SciReasoner/Mol_Instructions/biotext.py
@@ -218,7 +218,7 @@ def load(path, task, max_cut=-1, mini_set=False, hf_hub=False):
         if mini_set:
             import random
             random.seed(1024)
-            test_data = random.sample(test_data, 50)
+            test_data = random.sample(test_data, min(len(test_data), 150))
             random.seed()
 
         dataset = DatasetDict({
diff --git a/opencompass/datasets/SciReasoner/opi/evaluator.py b/opencompass/datasets/SciReasoner/opi/evaluator.py
@@ -51,7 +51,7 @@ def load(path, task, max_cut=-1, mini_set=False, hf_hub=False):
         if mini_set:
             import random
             random.seed(1024)
-            test_data = random.sample(test_data, 50)
+            test_data = random.sample(test_data, min(len(test_data), 150))
             random.seed()
 
         dataset = DatasetDict({