Add Dots1ForCausalLM architecture

turboderp · turboderp · commit 2d1ce8910339 · 2025-06-14T15:32:35.000+02:00
diff --git a/exllamav3/models/architectures.py b/exllamav3/models/architectures.py
@@ -1,6 +1,7 @@
 from .cohere import CohereModel
 from .cohere2 import Cohere2Model
 from .decilm import DeciLMModel
+from .dots1 import Dots1Model
 from .gemma2 import Gemma2Model
 from .gemma3 import Gemma3Model, Gemma3TextModel
 from .glm4 import Glm4Model
@@ -23,6 +24,7 @@
         CohereModel,
         Cohere2Model,
         DeciLMModel,
+        Dots1Model,
         Gemma2Model,
         Gemma3Model,
         Gemma3TextModel,
diff --git a/exllamav3/models/dots1.py b/exllamav3/models/dots1.py
@@ -0,0 +1,218 @@
+from __future__ import annotations
+from typing_extensions import override
+import torch
+from .config import Config, no_default
+from .model import Model
+from ..util.rope import RopeSettings, RopeStyle
+from ..modules import RMSNorm, Embedding, TransformerBlock, Attention, BlockSparseMLP, GatedMLP, Linear
+from ..modules.attn import prepare_for_attn
+
+class Dots1Config(Config):
+    arch_string = "Dots1ForCausalLM"
+
+    def __init__(
+        self,
+        directory: str,
+        **kwargs,
+    ):
+        super().__init__(
+            directory,
+            {"text": Dots1Model},
+            **kwargs
+        )
+
+        # Attention params
+        self.head_dim = self.read_cfg(int, "head_dim", None)
+        self.hidden_size = self.read_cfg(int, "hidden_size", no_default)
+        self.num_q_heads = self.read_cfg(int, "num_attention_heads", no_default)
+        self.num_kv_heads = self.read_cfg(int, "num_key_value_heads", self.num_q_heads)
+
+        if not self.head_dim:
+            self.head_dim = self.hidden_size // self.num_q_heads
+
+        # MLP params
+        self.assert_cfg(str, "hidden_act", "silu", True)
+        self.assert_cfg(str, "scoring_func", "noaux_tc", True)
+        self.assert_cfg(bool, "norm_topk_prob", True, True)
+        self.intermediate_size = self.read_cfg(int, "intermediate_size", no_default)
+        self.moe_intermediate_size = self.read_cfg(int, "moe_intermediate_size", no_default)
+        self.num_shared_experts = self.read_cfg(int, "n_shared_experts", 1)
+        self.num_experts = self.read_cfg(int, "n_routed_experts", 128)
+        self.num_experts_per_tok = self.read_cfg(int, "num_experts_per_tok", 8)
+        self.first_k_dense_replace = self.read_cfg(int, "first_k_dense_replace", 3)
+        self.routed_scaling_factor = self.read_cfg(float, "routed_scaling_factor", 2.5)
+
+        # Norms
+        self.rms_norm_eps = self.read_cfg(float, "rms_norm_eps", no_default)
+
+        # Layers
+        self.num_hidden_layers = self.read_cfg(int, "num_hidden_layers", no_default)
+        self.tie_word_embeddings = self.read_cfg(bool, "tie_word_embeddings", False)
+
+        # RoPE
+        self.rope_settings = self.read_rope_settings_default(RopeStyle.NEOX)
+
+
+class Dots1Model(Model):
+    config_class = Dots1Config
+
+    def __init__(
+        self,
+        config: Dots1Config,
+        **kwargs
+    ):
+        super().__init__(config, **kwargs)
+
+        self.modules += [
+            Embedding(
+                config = config,
+                key = "model.embed_tokens",
+                vocab_size = config.vocab_size,
+                hidden_size = config.hidden_size,
+            )
+        ]
+
+        self.first_block_idx = len(self.modules)
+
+        self.modules += [
+            TransformerBlock(
+                config = config,
+                key = f"model.layers.{idx}",
+                attn_norm = RMSNorm(
+                    config = config,
+                    key = f"model.layers.{idx}.input_layernorm",
+                    rms_norm_eps = config.rms_norm_eps,
+                ),
+                attn = Attention(
+                    config = config,
+                    key = f"model.layers.{idx}.self_attn",
+                    layer_idx = idx,
+                    hidden_size = config.hidden_size,
+                    head_dim = config.head_dim,
+                    num_q_heads = config.num_q_heads,
+                    num_kv_heads = config.num_kv_heads,
+                    rope_settings = config.rope_settings,
+                    sm_scale = None,
+                    key_q = "q_proj",
+                    key_k = "k_proj",
+                    key_v = "v_proj",
+                    key_o = "o_proj",
+                    qmap = "block.attn",
+                    q_norm = RMSNorm(
+                        config = config,
+                        key = f"model.layers.{idx}.self_attn.q_norm",
+                        rms_norm_eps = config.rms_norm_eps,
+                    ),
+                    k_norm = RMSNorm(
+                        config = config,
+                        key = f"model.layers.{idx}.self_attn.k_norm",
+                        rms_norm_eps = config.rms_norm_eps,
+                    ),
+                    out_dtype = torch.float
+                ),
+                mlp_norm = RMSNorm(
+                    config = config,
+                    key = f"model.layers.{idx}.post_attention_layernorm",
+                    rms_norm_eps = config.rms_norm_eps,
+                ),
+                mlp = (
+                    GatedMLP(
+                        config = config,
+                        key = f"model.layers.{idx}.mlp",
+                        hidden_size = config.hidden_size,
+                        intermediate_size = config.intermediate_size,
+                        key_up = "up_proj",
+                        key_gate = "gate_proj",
+                        key_down = "down_proj",
+                        qmap = "block.mlp",
+                        interm_dtype = torch.half,
+                        out_dtype = torch.float,
+                    )
+                    if idx < config.first_k_dense_replace else
+                    BlockSparseMLP(
+                        config = config,
+                        key = f"model.layers.{idx}.mlp",
+                        hidden_size = config.hidden_size,
+                        intermediate_size = config.moe_intermediate_size,
+                        num_experts = config.num_experts,
+                        num_experts_per_tok = config.num_experts_per_tok,
+                        key_up = "experts.{expert_idx}.up_proj",
+                        key_gate = "experts.{expert_idx}.gate_proj",
+                        key_down = "experts.{expert_idx}.down_proj",
+                        key_routing_gate = "gate",
+                        qmap = "block.mlp",
+                        interm_dtype = torch.half,
+                        out_dtype = torch.float,
+                        deepseekv3_routing = True,
+                        routed_scaling_factor = config.routed_scaling_factor,
+                        n_group = 1,
+                        topk_group = 1,
+                        shared_experts = GatedMLP(
+                            config = config,
+                            key = f"model.layers.{idx}.mlp.shared_experts",
+                            hidden_size = config.hidden_size,
+                            intermediate_size = config.moe_intermediate_size * config.num_shared_experts,
+                            key_up = "up_proj",
+                            key_gate = "gate_proj",
+                            key_down = "down_proj",
+                            qmap = "block.mlp",
+                            interm_dtype = torch.half,
+                            out_dtype = torch.float,
+                        ),
+                    )
+                )
+            )
+            for idx in range(config.num_hidden_layers)
+        ]
+
+        # TODO: The first attn.o_proj is irregular and breaks quantization. For now, skip quantizing it
+        self.modules[self.first_block_idx].attn.o_proj.qmap = None
+
+        self.last_kv_module_idx = len(self.modules) - 1
+
+        head_alt_key = None
+        if config.tie_word_embeddings and not self.config.stc.has_tensor("lm_head"):
+            head_alt_key = "model.embed_tokens"
+
+        self.modules += [
+            RMSNorm(
+                config = config,
+                key = "model.norm",
+                rms_norm_eps = config.rms_norm_eps,
+                out_dtype = torch.half,
+            ),
+            Linear(
+                config = config,
+                key = "lm_head",
+                qbits_key = "head_bits",
+                alt_key = head_alt_key,
+                in_features = config.hidden_size,
+                out_features = config.vocab_size,
+                qmap = "block",
+                caps = {"logits_output": True}
+            )
+        ]
+
+        self.logit_layer_idx = len(self.modules) - 1
+
+        # Activate all experts during H capture pass in quantization
+        self.calibration_all_experts = True
+
+
+    @override
+    def prepare_inputs(self, input_ids: torch.Tensor, params: dict) -> torch.Tensor:
+        params["input_ids"] = input_ids
+        input_ids = prepare_for_attn(input_ids, params)
+        return input_ids
+
+
+    @override
+    def default_chat_prompt(self, prompt: str, system_prompt: str = None) -> str:
+        p = ""
+        if system_prompt:
+            p += f"<|im_start|>system\n"
+            p += f"{system_prompt}<|im_end|>\n"
+        p += f"<|im_start|>user\n"
+        p += f"{prompt}<|im_end|>\n"
+        p += f"<|im_start|>assistant\n"
+        return p