[None][fix] Fix import issues in layer-wise benchmarks (#8827)

yuantailing · web-flow · commit 8303cfa477d7 · 2025-11-03T02:32:48.000-08:00
Signed-off-by: Tailing Yuan &lt;yuantailing@gmail.com&gt;
diff --git a/tests/integration/defs/conftest.py b/tests/integration/defs/conftest.py
@@ -626,25 +626,11 @@ def deepseek_v3_model_root(request):
     elif request.param == "DeepSeek-V3-Lite-nvfp4_moe_only":
         deepseek_v3_model_root = os.path.join(models_root, "DeepSeek-V3-Lite",
                                               "nvfp4_moe_only")
-    elif request.param == "DeepSeek-V3.2-Exp":
-        deepseek_v3_model_root = os.path.join(models_root,
-                                              "DeepSeek-V3.2-Exp-hf")
     assert exists(
         deepseek_v3_model_root), f"{deepseek_v3_model_root} does not exist!"
     return deepseek_v3_model_root
 
 
-@pytest.fixture(scope="function")
-def deepseek_r1_model_root(request):
-    models_root = llm_models_root()
-    if request.param == "DeepSeek-R1-0528-FP4-v2":
-        deepseek_r1_model_root = os.path.join(models_root, "DeepSeek-R1",
-                                              "DeepSeek-R1-0528-FP4-v2")
-    assert exists(
-        deepseek_r1_model_root), f"{deepseek_r1_model_root} does not exist!"
-    return deepseek_r1_model_root
-
-
 @pytest.fixture(scope="session")
 def trt_performance_cache_name():
     return "performance.cache"
diff --git a/tests/integration/test_lists/waives.txt b/tests/integration/test_lists/waives.txt
@@ -294,8 +294,6 @@ full:L20/accuracy/test_llm_api_pytorch.py::TestMinistral8BInstruct::test_fp8 SKI
 full:L40S/accuracy/test_llm_api_pytorch.py::TestLlama3_2_1B::test_fp8_prequantized SKIP (https://nvbugs/5542862)
 full:L40S/accuracy/test_llm_api_pytorch.py::TestMinistral8BInstruct::test_fp8 SKIP (https://nvbugs/5542862)
 unittest/_torch/multi_gpu_modeling/test_llama3.py::test_llama_3_3 SKIP (https://nvbugs/5536131)
-unittest/tools/test_layer_wise_benchmarks.py::test_deepseek_r1_ctx_tep SKIP (never tested)
-unittest/tools/test_layer_wise_benchmarks.py::test_deepseek_r1_gen_scaled_from_16_dep SKIP (never tested)
 examples/test_eagle.py::test_llm_eagle_1gpu_modelopt_ckpt[llama3.1-eagle-8b-hf_v0.5-float16-bs8] SKIP (https://nvbugs/5546507)
 examples/test_eagle.py::test_llm_eagle_1gpu[EAGLE-Vicuna-7B-v1.3-float16-bs1-eagle1] SKIP (https://nvbugs/5546507)
 examples/test_eagle.py::test_llm_eagle_1gpu[EAGLE-Vicuna-7B-v1.3-float16-bs1-eagle2] SKIP (https://nvbugs/5546507)
diff --git a/tests/unittest/tools/test_layer_wise_benchmarks.py b/tests/unittest/tools/test_layer_wise_benchmarks.py
@@ -1,23 +1,22 @@
 import os
+from subprocess import check_call
 
 import pytest
 import torch
-from defs.conftest import deepseek_r1_model_root  # noqa: F401
-from defs.conftest import deepseek_v3_model_root  # noqa: F401
-from defs.trt_test_alternative import check_call
 from utils.cpp_paths import llm_root  # noqa: F401
+from utils.llm_data import llm_models_root
 
 
 @pytest.mark.skipif(torch.cuda.device_count() < 4,
                     reason="needs 4 GPUs to run this test")
-@pytest.mark.parametrize("deepseek_r1_model_root", ["DeepSeek-R1-0528-FP4-v2"],
-                         indirect=True)
-def test_deepseek_r1_ctx_tep(llm_root, deepseek_r1_model_root):
+def test_deepseek_r1_ctx_tep(llm_root):
+    model_root = llm_models_root(check=True)
     check_call([
         "./mpi_launch.sh",
         "./run_single.sh",
         "config_ctx.yaml",
-        "--model=" + deepseek_r1_model_root,
+        "--model",
+        model_root / "DeepSeek-R1" / "DeepSeek-R1-0528-FP4-v2",
         "--no-enable-attention-dp",
         "--moe-backend=TRTLLM",
     ],
@@ -31,14 +30,14 @@ def test_deepseek_r1_ctx_tep(llm_root, deepseek_r1_model_root):
 
 @pytest.mark.skipif(torch.cuda.device_count() < 4,
                     reason="needs 4 GPUs to run this test")
-@pytest.mark.parametrize("deepseek_v3_model_root", ["DeepSeek-V3.2-Exp"],
-                         indirect=True)
-def test_deepseek_v32_ctx_dep(llm_root, deepseek_v3_model_root):
+def test_deepseek_v32_ctx_dep(llm_root):
+    model_root = llm_models_root(check=True)
     check_call([
         "./mpi_launch.sh",
         "./run_single.sh",
         "config_ctx.yaml",
-        "--model=" + deepseek_v3_model_root,
+        "--model",
+        model_root / "DeepSeek-V3.2-Exp-hf",
         "--tokens-per-block=64",
         "--moe-backend=DEEPGEMM",
     ],
@@ -51,14 +50,14 @@ def test_deepseek_v32_ctx_dep(llm_root, deepseek_v3_model_root):
 
 @pytest.mark.skipif(torch.cuda.device_count() < 4,
                     reason="needs 4 GPUs to run this test")
-@pytest.mark.parametrize("deepseek_r1_model_root", ["DeepSeek-R1-0528-FP4-v2"],
-                         indirect=True)
-def test_deepseek_r1_gen_scaled_from_16_dep(llm_root, deepseek_r1_model_root):
+def test_deepseek_r1_gen_scaled_from_16_dep(llm_root):
+    model_root = llm_models_root(check=True)
     check_call([
         "./mpi_launch.sh",
         "./run_single.sh",
         "config_gen.yaml",
-        "--model=" + deepseek_r1_model_root,
+        "--model",
+        model_root / "DeepSeek-R1" / "DeepSeek-R1-0528-FP4-v2",
         "--layer-indices=5,6",
         "--scaled-from=16",
         "--moe-backend=WIDEEP",