AWQ allow for activation quantization

brian-dellabetta · brian-dellabetta · commit 7be5bf6bb627 · 2025-07-24T15:15:29.000-05:00
Signed-off-by: Brian Dellabetta &lt;bdellabe@redhat.com&gt;
diff --git a/src/llmcompressor/modifiers/awq/base.py b/src/llmcompressor/modifiers/awq/base.py
@@ -1,5 +1,6 @@
 import inspect
 from typing import Dict, List, Optional, Tuple, Union
+import warnings
 
 import torch
 from compressed_tensors.quantization import (
@@ -183,25 +184,25 @@ def validate_model_after(model: "AWQModifier") -> "AWQModifier":
 
         model._group_size = next(iter(group_size_set))
 
-        in_num_bits_set = set(
+        num_bits_set = set(
             group.input_activations.num_bits
             for group in config.config_groups.values()
             if group.input_activations is not None
+        ).union(
+            set(
+                group.output_activations.num_bits
+                for group in config.config_groups.values()
+                if group.output_activations is not None
+            )
         )
-        assert len(in_num_bits_set) == 0 or in_num_bits_set == {16}, (
-            "AWQ activations must be 16-bit precision, "
-            f"input activations {in_num_bits_set} not allowed"
-        )
-
-        out_num_bits_set = set(
-            group.output_activations.num_bits
-            for group in config.config_groups.values()
-            if group.output_activations is not None
-        )
-        assert len(out_num_bits_set) == 0 or out_num_bits_set == {16}, (
-            "AWQ activations must be 16-bit precision, "
-            f"output activations {out_num_bits_set} not allowed"
-        )
+        if not (len(num_bits_set) == 0 or num_bits_set == {16}):
+            warnings.warn(
+                "A strategy including activation quantization was detected. "
+                "AWQ was originally intended for weight-only quantization. "
+                "Lower-precision activations are an experimental feautre, and "
+                "overall performance may be poor. If it is, consider using "
+                "`W4A16` or `W4A16_ASYM` quantization schemes instead."
+            )
 
         return model