fix: reduce upper limit to 16 GPUs to avoid fp8 quantization block being split (#4100)

tedzhouhk · web-flow · commit 63a26cfaca20 · 2025-11-05T08:37:45.000-08:00
Signed-off-by: hongkuanz &lt;hongkuanz@nvidia.com&gt;
diff --git a/benchmarks/profiler/utils/search_space_autogen.py b/benchmarks/profiler/utils/search_space_autogen.py
@@ -23,7 +23,7 @@
 logger.addHandler(console_handler)
 
 MODEL_GPU_MEM_FRAC_MAX = 0.9
-MOE_MODEL_MAX_NUM_GPUS = 32
+MOE_MODEL_MAX_NUM_GPUS = 16
 
 
 def auto_generate_search_space(args: argparse.Namespace) -> None: