[TRTLLM-8979][test] Improve qwen3 spec dec test coverage (#8767)

mikeiovine · web-flow · commit 5e6f1bcd2495 · 2025-11-03T10:12:10.000-08:00
Signed-off-by: Mike Iovine &lt;6158008+mikeiovine@users.noreply.github.com&gt;
diff --git a/tests/integration/defs/accuracy/references/gsm8k.yaml b/tests/integration/defs/accuracy/references/gsm8k.yaml
@@ -108,6 +108,8 @@ deepseek-ai/DeepSeek-V3.2-Exp:
     accuracy: 95.6
 Qwen3/Qwen3-8B:
   - accuracy: 87.1114
+  - spec_dec_algo: Eagle
+    accuracy: 87.1114
   - quant_algo: FP8
     kv_cache_quant_algo: FP8
     accuracy: 87.1114
diff --git a/tests/integration/defs/accuracy/test_llm_api_pytorch.py b/tests/integration/defs/accuracy/test_llm_api_pytorch.py
@@ -258,8 +258,6 @@ def test_eagle3(self, overlap_scheduler, eagle3_one_model):
                  build_config=None) as llm:
             task = CnnDailymail(self.MODEL_NAME)
             task.evaluate(llm)
-            task = MMLU(self.MODEL_NAME)
-            task.evaluate(llm)
             task = GSM8K(self.MODEL_NAME)
             task.evaluate(llm)
 
@@ -2852,7 +2850,7 @@ def test_bf16(self, tp_size, pp_size, ep_size, attention_dp, cuda_graph,
     @parametrize_with_ids("enable_chunked_prefill", [False, True])
     def test_eagle3(self, enable_chunked_prefill, eagle3_one_model):
         pytorch_config = dict(
-            disable_overlap_scheduler=True,
+            disable_overlap_scheduler=not eagle3_one_model,
             cuda_graph_config=CudaGraphConfig(),
         )
         kv_cache_config = KvCacheConfig(
@@ -2877,7 +2875,7 @@ def test_eagle3(self, enable_chunked_prefill, eagle3_one_model):
                   build_config=None)
 
         with llm:
-            task = MMLU(self.MODEL_NAME)
+            task = GSM8K(self.MODEL_NAME)
             task.evaluate(llm)
 
     @skip_pre_blackwell
@@ -3040,7 +3038,7 @@ def test_nvfp4(
 
     def test_eagle3(self):
         pytorch_config = dict(
-            disable_overlap_scheduler=True,
+            disable_overlap_scheduler=False,
             cuda_graph_config=CudaGraphConfig(batch_sizes=[1, 2, 3, 4, 8]),
         )
         kv_cache_config = KvCacheConfig(enable_block_reuse=False)