Skip writing empty g_idx to disk, fix compress_quantized_weights (#143)

kylesayrs · web-flow · commit b885229b1ff5 · 2024-09-08T23:26:18.000-04:00
diff --git a/src/compressed_tensors/compressors/base.py b/src/compressed_tensors/compressors/base.py
@@ -125,8 +125,8 @@ def compress(
                 else:
                     compressed_dict[name] = value.to("cpu")
             elif name.endswith("zero_point") and torch.all(value == 0):
-                # all zero_points are 0, no need to include in
-                # compressed state_dict
+                continue
+            elif name.endswith("g_idx") and torch.any(value <= -1):
                 continue
             else:
                 compressed_dict[name] = value.to("cpu")
diff --git a/src/compressed_tensors/quantization/lifecycle/compressed.py b/src/compressed_tensors/quantization/lifecycle/compressed.py
@@ -49,6 +49,7 @@ def compress_quantized_weights(module: Module):
     weight = getattr(module, "weight", None)
     scale = getattr(module, "weight_scale", None)
     zero_point = getattr(module, "weight_zero_point", None)
+    g_idx = getattr(module, "weight_g_idx", None)
 
     if weight is None or scale is None:
         # no weight, scale, or ZP, nothing to do
@@ -62,6 +63,7 @@ def compress_quantized_weights(module: Module):
         x=weight,
         scale=scale,
         zero_point=zero_point,
+        g_idx=g_idx,
         args=scheme.weights,
         dtype=torch.int8,
     )