up

metascroy · metascroy · commit c29a9f607001 · 2025-06-11T19:56:52.000-07:00
diff --git a/examples/models/llama/source_transformation/quantize.py b/examples/models/llama/source_transformation/quantize.py
@@ -510,6 +510,223 @@ def forward(self, input: torch.Tensor) -> torch.Tensor:
             self.precision,
         )
 
+#########################################################################
+#####                   embedding table quantization               ######
+
+
+def replace_embedding_weight_only_grouped_int8_per_channel(
+    module, device, bitwidth: int = 8, group_size: Optional[int] = None, packed=False
+):
+    for name, child in module.named_children():
+        # print(f"name: {name}")
+        if isinstance(child, nn.Embedding):
+            # print(f"{name, child}")
+            # print(f"weights size: {child.weight.size()}")
+            setattr(
+                module,
+                name,
+                QuantizedGroupEmbedding(
+                    device=device,
+                    vocab_size=child.weight.shape[0],
+                    embedding_dim=child.weight.shape[1],
+                    group_size=group_size,
+                    dtype=child.weight.dtype,
+                    packed=packed,
+                    bitwidth=bitwidth,
+                ),
+            )
+        else:
+            replace_embedding_weight_only_grouped_int8_per_channel(
+                child, device, bitwidth, group_size, packed
+            )
+
+
+class EmbeddingQuantHandler(QuantHandler):
+    def __init__(
+        self,
+        mod,
+        device="cpu",
+        *,
+        bitwidth: int = 8,
+        group_size: Optional[int] = None,
+        packed=False,
+        precision: Optional[torch.dtype] = None,
+    ):
+        if isinstance(packed, str):
+            packed = packed == "True"
+        self.mod = mod
+        self.device = device
+        self.group_size = group_size
+        self.bitwidth = bitwidth
+        self.packed = packed
+        # Dtype of the weights right before quantization.
+        self.precision = precision
+        if (bitwidth not in [2, 4]) and packed:
+            raise RuntimeError("pack only works with bitsize 2, 4")
+
+    @torch.no_grad()
+    def create_quantized_state_dict(self, packed=False) -> Dict:
+        cur_state_dict = self.mod.state_dict()
+
+        if self.bitwidth == 2:
+            range_min = -2
+            range_max = 1
+        elif self.bitwidth == 4:
+            range_min = -8
+            range_max = 7
+        elif self.bitwidth == 8:
+            range_min = -128
+            range_max = 127
+        else:
+            raise ValueError(f"Unsupported bitwidth {self.bitwidth}")
+
+        for fqn, mod in self.mod.named_modules():
+            if isinstance(mod, nn.Embedding):
+                # print("****")
+                # print(f"Embedding identified: {fqn, mod}")
+                # print(f"weights size: {mod.weight.size()}")
+                # print(f"quantize {fqn}...")
+
+                print(
+                    f"quantize {fqn, mod} with group_size {self.group_size}, bitwidth {self.bitwidth}"
+                )
+                weight, scales, _ = dynamically_quantize_per_channel(
+                    (
+                        mod.weight.to(dtype=self.precision)
+                        if self.precision
+                        else mod.weight
+                    ),
+                    range_min,
+                    range_max,
+                    torch.int8,
+                    self.group_size,
+                    scales_dtype=mod.weight.dtype,
+                )
+
+                if packed:
+                    if self.bitwidth == 2:
+                        if weight.shape[-1] % 4 != 0:
+                            raise RuntimeError("automatic padding not implemented yet")
+                        weight_range_shifted = weight.add(2).view(torch.uint8)
+                        weight_view = weight_range_shifted.view(
+                            weight.shape[0], weight.shape[1] // 4, 4
+                        )
+                        weight_0 = weight_view[:, :, 0]
+                        weight_1 = weight_view[:, :, 1] << 2
+                        weight_2 = weight_view[:, :, 2] << 4
+                        weight_3 = weight_view[:, :, 3] << 6
+                        weight_packed = weight_0 + weight_1 + weight_2 + weight_3
+                        weight = weight_packed
+                    elif self.bitwidth == 4:
+                        if weight.shape[-1] % 2 != 0:
+                            raise RuntimeError("automatic padding not implemented yet")
+                        weight_range_shifted = weight.add(8).view(torch.uint8)
+                        weight_view = weight_range_shifted.view(
+                            weight.shape[0], weight.shape[1] // 2, 2
+                        )
+                        weight_even = weight_view[:, :, 0] * 16  # left shift 4
+                        weight_odd = weight_view[:, :, 1]
+                        weight_packed = weight_even + weight_odd
+                        weight = weight_packed
+
+                weight = weight.to(device=self.device)
+                scales = scales.to(device=self.device)
+                # Update state dict
+                cur_state_dict[f"{fqn}.weight"] = weight
+                # squeeze makes group_size=rowsize unidimensional
+                cur_state_dict[f"{fqn}.scales"] = scales.squeeze(dim=-1)
+
+        return cur_state_dict
+
+    def convert_for_runtime(self) -> nn.Module:
+        replace_embedding_weight_only_grouped_int8_per_channel(
+            self.mod, self.device, self.bitwidth, self.group_size, self.packed
+        )
+        return self.mod
+
+    def quantized_model(self) -> nn.Module:
+        model_updated_state_dict = self.create_quantized_state_dict(self.packed)
+        self.convert_for_runtime()
+        self.mod.load_state_dict(model_updated_state_dict, assign=True)
+        return self.mod
+
+
+class QuantizedGroupEmbedding(torch.nn.Module):
+    def __init__(
+        self,
+        device,
+        vocab_size: int,
+        embedding_dim: int,
+        group_size: Optional[int] = None,
+        dtype=torch.half,
+        packed=False,
+        bitwidth: int = 8,
+    ) -> None:
+        super().__init__()
+        if group_size is None or group_size == 0:
+            group_size = embedding_dim
+        self.group_size = group_size
+        self.dtype = dtype
+        self.packed = packed
+        self.bitwidth = bitwidth
+        if not packed:
+            self.register_buffer(
+                "weight",
+                torch.zeros(
+                    (vocab_size, embedding_dim), dtype=torch.int8, device=device
+                ),
+            )
+        else:  # packed
+            if bitwidth == 2:
+                self.register_buffer(
+                    "weight",
+                    torch.zeros(
+                        (vocab_size, embedding_dim // 4),
+                        dtype=torch.uint8,
+                        device=device,
+                    ),
+                )
+            elif bitwidth == 4:
+                self.register_buffer(
+                    "weight",
+                    torch.zeros(
+                        (vocab_size, embedding_dim // 2),
+                        dtype=torch.uint8,
+                        device=device,
+                    ),
+                )
+
+        groups_per_row = (embedding_dim + group_size - 1) // group_size
+        if groups_per_row > 1:
+            self.register_buffer(
+                "scales",
+                torch.ones(
+                    (vocab_size, groups_per_row), dtype=torch.float16, device=device
+                ),
+            )
+        else:
+            self.register_buffer(
+                "scales", torch.ones((vocab_size,), dtype=torch.float16, device=device)
+            )
+
+    @torch.no_grad()
+    def forward(self, indices: torch.Tensor) -> torch.Tensor:
+        if not self.packed:  # 8bit
+            return torch.ops.quantized_decomposed.embedding_byte.dtype(
+                self.weight, self.scales, None, -128, 127, indices, dtype=self.dtype
+            )
+        else:  # packed
+            if self.bitwidth == 2:
+                return torch.ops.quantized_decomposed.embedding_2bit.dtype(
+                    self.weight, self.scales, None, -2, 1, indices, dtype=self.dtype
+                )
+
+            # Remaining case (always return to make pyre happy)
+            assert self.bitwidth == 4
+            return torch.ops.quantized_decomposed.embedding_4bit.dtype(
+                self.weight, self.scales, None, -8, 7, indices, dtype=self.dtype
+            )
+
 
 ############################ Source Transform Start #######################
 
diff --git a/examples/models/llava/export_llava.py b/examples/models/llava/export_llava.py
@@ -26,6 +26,7 @@
 from executorch.examples.models.llama.source_transformation.quantize import (
     get_quant_embedding_transform,
     get_quant_weight_transform,
+    EmbeddingQuantHandler,
 )
 from executorch.examples.models.llama.source_transformation.sdpa import (
     replace_sdpa_with_custom_op,
@@ -183,9 +184,19 @@ def forward(self, images):
 
 
 def export_token_embedding(llava, prompt):
-    quantized_token_embed = get_quant_embedding_transform("8,32")(
-        llava.model_.language_model.model
-    )
+    # quantized_token_embed = get_quant_embedding_transform("8,32")(
+    #     llava.model_.language_model.model
+    # )
+    def quant_embedding(model):
+        return EmbeddingQuantHandler(
+            model,
+            bitwidth=8,
+            group_size=32,
+            packed=False,
+        ).quantized_model()
+
+    quantized_token_embed = quant_embedding(llava.model_.language_model.model)
+
     token_dim_1 = Dim("token_dim_1", min=2, max=llava.text_model_args.max_seq_len)
     dynamic_shapes = [{1: token_dim_1}]
     with torch.no_grad():