Add Qwen3MoeForCausalLM

turboderp · turboderp · commit a5caa423bbd9 · 2025-05-11T15:35:38.000+02:00
diff --git a/exllamav3/models/architectures.py b/exllamav3/models/architectures.py
@@ -2,6 +2,7 @@
 from .mistral import MistralModel
 from .qwen2 import Qwen2Model
 from .qwen3 import Qwen3Model
+from .qwen3_moe import Qwen3MoeModel
 from .phi3 import Phi3Model
 from .gemma2 import Gemma2Model
 from .decilm import DeciLMModel
@@ -19,6 +20,7 @@
         MistralModel,
         Qwen2Model,
         Qwen3Model,
+        Qwen3MoeModel,
         Phi3Model,
         Gemma2Model,
         DeciLMModel,
diff --git a/exllamav3/models/qwen3_moe.py b/exllamav3/models/qwen3_moe.py
@@ -0,0 +1,166 @@
+from __future__ import annotations
+from typing_extensions import override
+import torch
+from .config import Config, no_default
+from .model import Model
+from ..util.rope import RopeSettings, RopeStyle
+from ..modules import RMSNorm, Embedding, TransformerBlock, Attention, BlockSparseMLP, Linear
+from ..modules.attn import prepare_for_attn
+
+class Qwen3MoeConfig(Config):
+    arch_string = "Qwen3MoeForCausalLM"
+
+    def __init__(
+        self,
+        directory: str,
+        **kwargs,
+    ):
+        super().__init__(
+            directory,
+            Qwen3MoeModel,
+            **kwargs
+        )
+
+        # Attention params
+        self.head_dim = self.read_cfg(int, "head_dim", None)
+        self.hidden_size = self.read_cfg(int, "hidden_size", no_default)
+        self.num_q_heads = self.read_cfg(int, "num_attention_heads", no_default)
+        self.num_kv_heads = self.read_cfg(int, "num_key_value_heads", self.num_q_heads)
+
+        if not self.head_dim:
+            self.head_dim = self.hidden_size // self.num_q_heads
+
+        # MLP params
+        self.assert_cfg(str, "hidden_act", "silu", True)
+        self.assert_cfg(bool, "norm_topk_prob", True, True)
+        self.moe_intermediate_size = self.read_cfg(int, "moe_intermediate_size", no_default)
+        self.num_experts = self.read_cfg(int, "num_experts", no_default)
+        self.num_experts_per_tok = self.read_cfg(int, "num_experts_per_tok", no_default)
+
+        # Norms
+        self.rms_norm_eps = self.read_cfg(float, "rms_norm_eps", no_default)
+
+        # Layers
+        self.num_hidden_layers = self.read_cfg(int, "num_hidden_layers", no_default)
+        self.tie_word_embeddings = self.read_cfg(bool, "tie_word_embeddings", False)
+
+        # RoPE
+        self.rope_settings = self.read_rope_settings_default(RopeStyle.NEOX)
+
+
+class Qwen3MoeModel(Model):
+    config_class = Qwen3MoeConfig
+
+    def __init__(
+        self,
+        config: Qwen3MoeConfig,
+        **kwargs
+    ):
+        super().__init__(config, **kwargs)
+
+        self.modules += [
+            Embedding(
+                config = config,
+                key = "model.embed_tokens",
+                vocab_size = config.vocab_size,
+                hidden_size = config.hidden_size,
+            )
+        ]
+
+        self.first_block_idx = len(self.modules)
+
+        self.modules += [
+            TransformerBlock(
+                config = config,
+                key = f"model.layers.{idx}",
+                attn_norm = RMSNorm(
+                    config = config,
+                    key = f"model.layers.{idx}.input_layernorm",
+                    rms_norm_eps = config.rms_norm_eps,
+                ),
+                attn = Attention(
+                    config = config,
+                    key = f"model.layers.{idx}.self_attn",
+                    layer_idx = idx,
+                    hidden_size = config.hidden_size,
+                    head_dim = config.head_dim,
+                    num_q_heads = config.num_q_heads,
+                    num_kv_heads = config.num_kv_heads,
+                    rope_settings = config.rope_settings,
+                    sm_scale = None,
+                    key_q = "q_proj",
+                    key_k = "k_proj",
+                    key_v = "v_proj",
+                    key_o = "o_proj",
+                    qmap = "block.attn",
+                    q_norm = RMSNorm(
+                        config = config,
+                        key = f"model.layers.{idx}.self_attn.q_norm",
+                        rms_norm_eps = config.rms_norm_eps,
+                    ),
+                    k_norm = RMSNorm(
+                        config = config,
+                        key = f"model.layers.{idx}.self_attn.k_norm",
+                        rms_norm_eps = config.rms_norm_eps,
+                    ),
+                ),
+                mlp_norm = RMSNorm(
+                    config = config,
+                    key = f"model.layers.{idx}.post_attention_layernorm",
+                    rms_norm_eps = config.rms_norm_eps,
+                ),
+                mlp = BlockSparseMLP(
+                    config = config,
+                    key = f"model.layers.{idx}.mlp",
+                    hidden_size = config.hidden_size,
+                    intermediate_size = config.moe_intermediate_size,
+                    num_experts = self.config.num_experts,
+                    num_experts_per_tok = self.config.num_experts_per_tok,
+                    key_up = "experts.{expert_idx}.up_proj",
+                    key_gate = "experts.{expert_idx}.gate_proj",
+                    key_down = "experts.{expert_idx}.down_proj",
+                    key_routing_gate = "gate",
+                    qmap = "block.mlp",
+                    interm_dtype = torch.half,
+                    out_dtype = torch.float,
+                ),
+            )
+            for idx in range(config.num_hidden_layers)
+        ]
+
+        self.last_kv_module_idx = len(self.modules) - 1
+
+        head_alt_key = None
+        if config.tie_word_embeddings and not self.config.stc.has_tensor("lm_head"):
+            head_alt_key = "model.embed_tokens"
+
+        self.modules += [
+            RMSNorm(
+                config = config,
+                key = "model.norm",
+                rms_norm_eps = config.rms_norm_eps,
+                out_dtype = torch.half,
+            ),
+            Linear(
+                config = config,
+                key = "lm_head",
+                qbits_key = "head_bits",
+                alt_key = head_alt_key,
+                in_features = config.hidden_size,
+                out_features = config.vocab_size,
+                qmap = "block",
+                caps = {"logits_output": True}
+            )
+        ]
+
+        self.logit_layer_idx = len(self.modules) - 1
+
+        # Activate all experts during H capture pass in quantization
+        self.calibration_all_experts = True
+
+
+    @override
+    def prepare_inputs(self, input_ids: torch.Tensor, params: dict) -> torch.Tensor:
+        params["input_ids"] = input_ids
+        input_ids = prepare_for_attn(input_ids, params)
+        return input_ids