AWQ support for vllm fake quant (dense model) (#409)

meenchen · hthadicherla · commit 345e4beb68d6 · 2025-10-14T09:58:16.000+05:30
Signed-off-by: weimingc &lt;17592131+meenchen@users.noreply.github.com&gt;
Signed-off-by: Hrishith Thadicherla &lt;hthadicherla@nvidia.com&gt;
diff --git a/modelopt/torch/quantization/plugins/vllm.py b/modelopt/torch/quantization/plugins/vllm.py
@@ -61,7 +61,13 @@ def apply(
         x = layer.input_quantizer(x)
         if layer.weight_quantizer.is_enabled:
             original_weight = layer.weight
-            layer.weight = layer.weight_quantizer(layer.weight)
+            quantized_tensor = layer.weight_quantizer(layer.weight)
+            # parameterize the quantized weight
+            if isinstance(original_weight, torch.nn.Parameter):
+                quantized_tensor = torch.nn.Parameter(
+                    quantized_tensor, requires_grad=original_weight.requires_grad
+                )
+            layer.weight = quantized_tensor
             output = self.quant_method.apply(layer, x, bias)
             layer.weight = original_weight
         else: