vllm-project · dsikka · Jul 31, 2025 · Jul 29, 2025 · Jul 29, 2025 · Jul 29, 2025
diff --git a/tests/lmeval/configs/w4a4_nvfp4.yaml b/tests/lmeval/configs/w4a4_nvfp4.yaml
@@ -0,0 +1,10 @@
+cadence: "weekly"
+model: meta-llama/Llama-3.1-8B-Instruct
+scheme: NVFP4
+dataset_id: HuggingFaceH4/ultrachat_200k
+dataset_split: train_sft
+num_calibration_samples: 20
+lmeval:
+  metrics:
+    exact_match,flexible-extract: 0.70
+    exact_match,strict-match: 0.65
diff --git a/tests/lmeval/test_lmeval.py b/tests/lmeval/test_lmeval.py
@@ -35,7 +35,7 @@ class LmEvalConfig(BaseModel):
     lm_eval_installed = False
     logger.warning("lm_eval is not installed. This test will be skipped")
 
-TEST_DATA_FILE = os.environ.get("TEST_DATA_FILE", None)
+TEST_DATA_FILE = os.environ.get("TEST_DATA_FILE", "tests/lmeval/configs/w4a4_nvfp4.yaml")
 TIMINGS_DIR = os.environ.get("TIMINGS_DIR", "timings/lm-eval")
 
 
@@ -90,7 +90,7 @@ def set_up(self, test_data_file: str):
         logger.info("========== RUNNING ==============")
         logger.info(self.scheme)
 
-        self.num_calibration_samples = 512
+        self.num_calibration_samples = eval_config.get("num_calibration_samples", 512)
         self.max_seq_length = 2048
 
     def test_lm_eval(self, test_data_file: str):