[NVFP4] Add lm-eval test case (#1689)

dsikka · gemini-code-assist[bot] · web-flow · commit aeb4b79d57cf · 2025-07-31T15:57:59.000-04:00
Summary
- Enable and nvfp4 weekly lm-eval test

vLLM:

```bash
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.6899|±  |0.0127|
|     |       |strict-match    |     5|exact_match|↑  |0.6384|±  |0.0132|
```

Us:

```
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.7036|±  |0.0126|
|     |       |strict-match    |     5|exact_match|↑  |0.6573|±  |0.0131|

```

---------

Co-authored-by: gemini-code-assist[bot] &lt;176961590+gemini-code-assist[bot]@users.noreply.github.com&gt;
diff --git a/tests/lmeval/configs/w4a4_nvfp4.yaml b/tests/lmeval/configs/w4a4_nvfp4.yaml
@@ -0,0 +1,10 @@
+cadence: "weekly"
+model: meta-llama/Llama-3.1-8B-Instruct
+scheme: NVFP4
+dataset_id: HuggingFaceH4/ultrachat_200k
+dataset_split: train_sft
+num_calibration_samples: 20
+lmeval:
+  metrics:
+    exact_match,flexible-extract: 0.70
+    exact_match,strict-match: 0.65
diff --git a/tests/lmeval/test_lmeval.py b/tests/lmeval/test_lmeval.py
@@ -90,7 +90,7 @@ def set_up(self, test_data_file: str):
         logger.info("========== RUNNING ==============")
         logger.info(self.scheme)
 
-        self.num_calibration_samples = 512
+        self.num_calibration_samples = eval_config.get("num_calibration_samples", 512)
         self.max_seq_length = 2048
 
     def test_lm_eval(self, test_data_file: str):