fix ddp for nvfp4 on A100 (vllm-project#2404)

HDCharles · yiliu30 · commit af31a1641979 · 2026-03-06T12:16:22.000Z
depends on vllm-project/compressed-tensors#603 Summary: nccl only allows broadcasting fp8 on a100 but we can work around it with this util Test Plan: <details> Test Script </details> Signed-off-by: HDCharles <charlesdavidhernandez@gmail.com> Signed-off-by: yiliu30 <yi4.liu@intel.com>
diff --git a/src/llmcompressor/modifiers/quantization/gptq/base.py b/src/llmcompressor/modifiers/quantization/gptq/base.py
@@ -2,7 +2,7 @@
 from typing import Dict, List, Optional, Tuple, Union
 
 import torch
-from compressed_tensors.offload.dist_utils import is_distributed
+from compressed_tensors.offload.dist_utils import as_broadcastable, is_distributed
 from compressed_tensors.quantization import (
     QuantizationConfig,
     QuantizationScheme,
@@ -358,7 +358,9 @@ def _broadcast_quantized_params(self, module_list, module_to_rank):
                 if getattr(module, attr, None) is not None:
                     pending_comms.append(
                         dist.broadcast(
-                            getattr(module, attr), src=src_rank, async_op=True
+                            as_broadcastable(getattr(module, attr)),
+                            src=src_rank,
+                            async_op=True,
                         )
                     )
         wait_for_comms(pending_comms)