Support deepseekv3 (#3449) (#3455)

blzheng · web-flow · commit 5b94f4f20989 · 2025-01-17T09:08:34.000+08:00
diff --git a/examples/cpu/llm/inference/distributed/run_generation_with_deepspeed.py b/examples/cpu/llm/inference/distributed/run_generation_with_deepspeed.py
@@ -294,7 +294,9 @@ def get_repo_root(model_name_or_path):
 def get_checkpoint_files(model_name_or_path):
     cached_repo_dir = get_repo_root(model_name_or_path)
     glob_pattern = "*.[bp][it][n]"
-    if re.search("deepseek-v2", model_name_or_path, re.IGNORECASE):
+    if re.search("deepseek-v2", model_name_or_path, re.IGNORECASE) or re.search(
+        "deepseek-v3", model_name_or_path, re.IGNORECASE
+    ):
         glob_pattern = "*.[sbp][ait][fn][e][t][e][n][s][o][r][s]"
     # extensions: .bin | .pt
     # creates a list of paths from all downloaded files in cache dir
diff --git a/examples/cpu/llm/inference/run.py b/examples/cpu/llm/inference/run.py
@@ -594,6 +594,7 @@ def main(args_in: Optional[List[str]] = None) -> None:
                 "maira": ("/maira2_local_shard"),
                 "jamba": ("/jamba_local_shard"),
                 "deepseek-v2": ("/deepseekv2_local_shard"),
+                "deepseek-v3": ("/deepseekv3_local_shard"),
             }
             model_type = next(
                 (
diff --git a/examples/cpu/llm/inference/single_instance/run_quantization.py b/examples/cpu/llm/inference/single_instance/run_quantization.py
@@ -45,7 +45,7 @@
 from llm.inference.utils.model_class.whisper import WhisperConfig
 from llm.inference.utils.model_class.maira2 import MAIRA2Config
 from llm.inference.utils.model_class.jamba import JambaConfig
-from llm.inference.utils.model_class.deepseek import DeepseekV2Config
+from llm.inference.utils.model_class.deepseek import DeepseekV2Config, DeepseekV3Config
 
 parser = argparse.ArgumentParser("LLM generation script (int8 path)", add_help=False)
 parser.add_argument(
@@ -437,6 +437,8 @@ def download_and_open(url: str) -> Image.Image:
     model = JambaConfig(args.model_id)
 elif re.search("deepseekv2", config.architectures[0], re.IGNORECASE):
     model = DeepseekV2Config(args.model_id)
+elif re.search("deepseekv3", config.architectures[0], re.IGNORECASE):
+    model = DeepseekV3Config(args.model_id)
 else:
     raise AssertionError("Not support %s." % (args.model_id))
 
diff --git a/examples/cpu/llm/inference/utils/model_class/deepseek.py b/examples/cpu/llm/inference/utils/model_class/deepseek.py
@@ -44,3 +44,43 @@ def get_user_model(self, config, benchmark):
                 trust_remote_code=True,
             )
         return self.model
+
+
+class DeepseekV3Config(LLMConfig):
+    def __init__(self, model_id):
+        self.name = "deepseekv3"
+        self.model_id = model_id
+        self.to_channels_last = False
+        self.example_inputs_mode = EXAMPLE_INPUTS_MODE.MASK_POS_KV
+
+        self.use_global_past_key_value = True
+        self.use_ipex_autotune = True
+
+    def get_user_model(self, config, benchmark):
+        if benchmark:
+            try:
+                with ipex.OnDevice(dtype=torch.float, device="meta"):
+                    self.model = AutoModelForCausalLM.from_config(
+                        config, trust_remote_code=True
+                    )
+            except (RuntimeError, AttributeError):
+                self.model = AutoModelForCausalLM.from_config(
+                    config, trust_remote_code=True
+                )
+            except Exception:
+                self.model = AutoModelForCausalLM.from_pretrained(
+                    self.model_id,
+                    torch_dtype=torch.bfloat16,
+                    config=config,
+                    low_cpu_mem_usage=True,
+                    trust_remote_code=True,
+                )
+        else:
+            self.model = AutoModelForCausalLM.from_pretrained(
+                self.model_id,
+                torch_dtype=torch.bfloat16,
+                config=config,
+                low_cpu_mem_usage=True,
+                trust_remote_code=True,
+            )
+        return self.model
diff --git a/examples/cpu/llm/inference/utils/supported_models.py b/examples/cpu/llm/inference/utils/supported_models.py
@@ -36,6 +36,7 @@
     "maira-2": (AutoModelForCausalLM, AutoProcessor),
     "jamba": (AutoModelForCausalLM, AutoTokenizer),
     "deepseek-v2": (AutoModelForCausalLM, AutoTokenizer),
+    "deepseek-v3": (AutoModelForCausalLM, AutoTokenizer),
     "auto": (AutoModelForCausalLM, AutoTokenizer),
 }
 
diff --git a/intel_extension_for_pytorch/transformers/generation/beam_sample.py b/intel_extension_for_pytorch/transformers/generation/beam_sample.py
@@ -178,6 +178,7 @@ def _beam_sample(
             "Maira2ForConditionalGeneration",
             "JambaForCausalLM",
             "DeepseekV2ForCausalLM",
+            "DeepseekV3ForCausalLM",
         ]:
             first_token = False
             if hasattr(self.config, "kv_cache_dtype"):
diff --git a/intel_extension_for_pytorch/transformers/generation/beam_search.py b/intel_extension_for_pytorch/transformers/generation/beam_search.py
@@ -205,6 +205,7 @@ def _beam_search(
             "Maira2ForConditionalGeneration",
             "JambaForCausalLM",
             "DeepseekV2ForCausalLM",
+            "DeepseekV3ForCausalLM",
         ]:
             first_token = False
             has_position_id = model_inputs.get("position_ids", None) is not None
diff --git a/intel_extension_for_pytorch/transformers/generation/greedy_search.py b/intel_extension_for_pytorch/transformers/generation/greedy_search.py
@@ -170,6 +170,7 @@ def _greedy_search(
             "Maira2ForConditionalGeneration",
             "JambaForCausalLM",
             "DeepseekV2ForCausalLM",
+            "DeepseekV3ForCausalLM",
         ]:
             first_token = False
             if hasattr(self.config, "kv_cache_dtype"):
diff --git a/intel_extension_for_pytorch/transformers/generation/sample.py b/intel_extension_for_pytorch/transformers/generation/sample.py
@@ -197,6 +197,7 @@ def _sample(
             "Maira2ForConditionalGeneration",
             "JambaForCausalLM",
             "DeepseekV2ForCausalLM",
+            "DeepseekV3ForCausalLM",
         ]:
             first_token = False
             if hasattr(self.config, "kv_cache_dtype"):
diff --git a/intel_extension_for_pytorch/transformers/models/cpu/modules/decoder.py b/intel_extension_for_pytorch/transformers/models/cpu/modules/decoder.py
@@ -62,6 +62,7 @@ def __init__(self, module, config, tpp=False, woq=False):
             "Maira2ForConditionalGeneration",
             "JambaForCausalLM",
             "DeepseekV2ForCausalLM",
+            "DeepseekV3ForCausalLM",
         ]:
             if not self.distributed:
                 if hasattr(module, "linear_add"):
@@ -143,7 +144,10 @@ def __init__(self, module, config, tpp=False, woq=False):
                     tpp=tpp,
                     woq=woq,
                 )
-            if self.model_backbone == "DeepseekV2ForCausalLM":
+            if self.model_backbone in [
+                "DeepseekV2ForCausalLM",
+                "DeepseekV3ForCausalLM",
+            ]:
                 if hasattr(self.mlp, "experts"):
                     # 0: Default, 1: TPP, 2: DNNL, 3: MKL, 4: WOQ
                     self.moe_linear_type = 0
diff --git a/intel_extension_for_pytorch/transformers/models/reference/fusions/mha_fusion.py b/intel_extension_for_pytorch/transformers/models/reference/fusions/mha_fusion.py
@@ -209,7 +209,7 @@ def __init__(self, max_position_embeddings, dim, backbone, base=10000, kwargs=No
             self.emb = torch.cat((freqs, freqs), dim=-1).float()
             self.cos_cached = self.emb.cos()[None, :, :]
             self.sin_cached = self.emb.sin()[None, :, :]
-        elif self.model_backbone == "DeepseekV2ForCausalLM":
+        elif self.model_backbone in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
             _mscale = float(
                 yarn_get_mscale(self.scaling_factor, self.mscale)
                 / yarn_get_mscale(self.scaling_factor, self.mscale_all_dim)
diff --git a/intel_extension_for_pytorch/transformers/models/reference/models.py b/intel_extension_for_pytorch/transformers/models/reference/models.py
@@ -756,7 +756,7 @@ def LlavaForConditionalGeneration_forward(
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
     num_logits_to_keep: int = 0,
-) -> Union[Tuple, LlavaCausalLMOutputWithPast]:
+):
     output_attentions = (
         output_attentions
         if output_attentions is not None
@@ -5843,14 +5843,16 @@ def JambaForCausalLM_forward(
     return (loss,) + output if loss is not None else output
 
 
-def DeepseekV2_MoEGate_forward(self, hidden_states):
+def Deepseek_MoEGate_forward(self, hidden_states):
     # compute gating score
     logits = torch.nn.functional.linear(
         hidden_states.type(torch.float32), self.weight.type(torch.float32), None
     )
 
     if self.scoring_func == "softmax":
         scores = logits.softmax(dim=-1, dtype=hidden_states.dtype)
+    elif self.scoring_func == "sigmoid":
+        scores = logits.sigmoid()
     else:
         raise NotImplementedError(
             f"insupportable scoring function for MoE gating: {self.scoring_func}"
@@ -5860,22 +5862,50 @@ def DeepseekV2_MoEGate_forward(self, hidden_states):
     if self.topk_method == "greedy":
         topk_weight, topk_idx = torch.topk(scores, k=self.top_k, dim=-1, sorted=False)
     elif self.topk_method == "group_limited_greedy":
+        routed_scaling_factor = self.routed_scaling_factor
+        if self.top_k > 1 and self.norm_topk_prob:
+            routed_scaling_factor = 1.0
         topk_idx, topk_weight = torch.ops.torch_ipex.deepseek_moegate(
             hidden_states,
             scores,
-            torch.tensor(self.routed_scaling_factor),
+            torch.tensor(routed_scaling_factor),
             self.n_group,
             self.topk_group,
             self.n_routed_experts,
             self.top_k,
         )
+    elif self.topk_method == "noaux_tc":
+        # TODO: fuse the following ops.
+        n = hidden_states.size(0)
+        scores_for_choice = scores.view(n, -1) + self.e_score_correction_bias.unsqueeze(
+            0
+        )
+        group_scores = (
+            scores_for_choice.view(n, self.n_group, -1).topk(2, dim=-1)[0].sum(dim=-1)
+        )  # [n, n_group]
+        group_idx = torch.topk(group_scores, k=self.topk_group, dim=-1, sorted=False)[
+            1
+        ]  # [n, top_k_group]
+        group_mask = torch.zeros_like(group_scores)  # [n, n_group]
+        group_mask.scatter_(1, group_idx, 1)  # [n, n_group]
+        score_mask = (
+            group_mask.unsqueeze(-1)
+            .expand(n, self.n_group, self.n_routed_experts // self.n_group)
+            .reshape(n, -1)
+        )  # [n, e]
+        tmp_scores = scores_for_choice.masked_fill(~score_mask.bool(), 0.0)  # [n, e]
+        _, topk_idx = torch.topk(tmp_scores, k=self.top_k, dim=-1, sorted=False)
+        topk_weight = scores.gather(1, topk_idx)
 
     # norm gate to sum 1
     if self.top_k > 1 and self.norm_topk_prob:
         denominator = topk_weight.sum(dim=-1, keepdim=True) + 1e-20
         topk_weight = topk_weight / denominator
     elif self.topk_method == "greedy":
         topk_weight = topk_weight * self.routed_scaling_factor
+    if self.topk_method == "noaux_tc":
+        topk_weight = topk_weight * self.routed_scaling_factor
+
     aux_loss = None
     return topk_idx, topk_weight, aux_loss
 
diff --git a/intel_extension_for_pytorch/transformers/models/reference/modules/attentions.py b/intel_extension_for_pytorch/transformers/models/reference/modules/attentions.py
@@ -2589,7 +2589,10 @@ def __init__(self, module, config, sdp_module_ref, distributed=False):
                 self.pos_embd_dim = rotary_dim // 2
             elif self.model_backbone in ["StableLmForCausalLM", "PhiForCausalLM"]:
                 self.pos_embd_dim = self.rotary_emb.dim
-            elif self.model_backbone in ["DeepseekV2ForCausalLM"]:
+            elif self.model_backbone in [
+                "DeepseekV2ForCausalLM",
+                "DeepseekV3ForCausalLM",
+            ]:
                 self.pos_embd_dim = self.qk_rope_head_dim
             else:
                 self.pos_embd_dim = self.head_dim
@@ -3146,7 +3149,7 @@ def forward(
                 output_attentions,
                 use_cache,
             )
-        elif self.model_backbone == "DeepseekV2ForCausalLM":
+        elif self.model_backbone in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
             return _DeepseekV2Attention_forward(
                 self,
                 hidden_states,
diff --git a/intel_extension_for_pytorch/transformers/models/reference/modules/decoder.py b/intel_extension_for_pytorch/transformers/models/reference/modules/decoder.py
@@ -1912,7 +1912,12 @@ def DeepseekV2DecoderLayer_forward(
         identity = hidden_states
         orig_shape = hidden_states.shape
         hidden_states = hidden_states.view(-1, hidden_states.shape[-1])
-        topk_idx, topk_weight, aux_loss = self.mlp.gate(hidden_states)
+        moegate_outputs = self.mlp.gate(hidden_states)
+        if len(moegate_outputs) == 3:
+            topk_idx, topk_weight, aux_loss = moegate_outputs
+        else:
+            tok_idx, topk_weight = moegate_outputs
+            aux_loss = None
         hidden_states = moe_infer(self, hidden_states, topk_idx, topk_weight).view(
             *orig_shape
         )
@@ -2225,7 +2230,7 @@ def __init__(self, module, config, distributed=False):
                 if not self.distributed:
                     self.mha_linear_add = _IPEXlinearAddRef(module.mamba.out_proj)
                     del self.__dict__["_modules"]["mamba"].out_proj
-        elif self.model_backbone == "DeepseekV2ForCausalLM":
+        elif self.model_backbone in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
             if not self.distributed:
                 self.mha_linear_add = _IPEXlinearAddRef(module.self_attn.o_proj)
                 del self.__dict__["_modules"]["self_attn"].o_proj
@@ -2579,7 +2584,7 @@ def forward(
                     use_cache,
                     cache_position,
                 )
-        elif self.model_backbone == "DeepseekV2ForCausalLM":
+        elif self.model_backbone in ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]:
             return DeepseekV2DecoderLayer_forward(
                 self,
                 hidden_states,
diff --git a/intel_extension_for_pytorch/transformers/optimize.py b/intel_extension_for_pytorch/transformers/optimize.py
@@ -214,7 +214,7 @@ def model_convert_reference(_model):
         JambaForCausalLM_forward,
         DeepseekV2ForCausalLM_forward,
         DeepseekV2Model_forward,
-        DeepseekV2_MoEGate_forward,
+        Deepseek_MoEGate_forward,
         prepare_inputs_for_generation,
         prepare_inputs_for_generation_gptj,
         prepare_inputs_for_generation_gptbigcode,
@@ -1093,14 +1093,17 @@ def model_convert_reference(_model):
             _model.config,
             distributed=distributed,
         )
-    elif _model.config.architectures[0] == "DeepseekV2ForCausalLM":
+    elif _model.config.architectures[0] in [
+        "DeepseekV2ForCausalLM",
+        "DeepseekV3ForCausalLM",
+    ]:
         convert_function(_model, "forward", DeepseekV2ForCausalLM_forward)
         convert_function(_model.model, "forward", DeepseekV2Model_forward)
         convert_functions(
             _model,
-            type(_model.model.layers[1].mlp.gate),
+            type(_model.model.layers[_model.config.first_k_dense_replace].mlp.gate),
             "forward",
-            DeepseekV2_MoEGate_forward,
+            Deepseek_MoEGate_forward,
         )
         convert_class(
             _model,
@@ -1657,7 +1660,10 @@ def model_convert_lowering(
                 supported_classes.append(
                     type(_model.model.layers[0].mamba.dt_layernorm)
                 )
-            if _model.config.architectures[0] == "DeepseekV2ForCausalLM":
+            if _model.config.architectures[0] in [
+                "DeepseekV2ForCausalLM",
+                "DeepseekV3ForCausalLM",
+            ]:
                 supported_classes.append(type(_model.model.layers[0].input_layernorm))
             for supported_class in supported_classes:
                 lowering_class_cpu(
@@ -1976,6 +1982,7 @@ def optimize(
                 "Maira2ForConditionalGeneration",
                 "JambaForCausalLM",
                 "DeepseekV2ForCausalLM",
+                "DeepseekV3ForCausalLM",
             ]
         if well_supported_model:
             check_transformers_for_llm_support()
diff --git a/tests/cpu/hf_configs/deepseekv3/config.json b/tests/cpu/hf_configs/deepseekv3/config.json
@@ -0,0 +1,61 @@
+{
+    "architectures": [
+      "DeepseekV3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "auto_map": {
+      "AutoConfig": "configuration_deepseek.DeepseekV3Config",
+      "AutoModel": "modeling_deepseek.DeepseekV3Model",
+      "AutoModelForCausalLM": "modeling_deepseek.DeepseekV3ForCausalLM"
+    },
+    "aux_loss_alpha": 0.001,
+    "bos_token_id": 0,
+    "eos_token_id": 1,
+    "ep_size": 1,
+    "first_k_dense_replace": 3,
+    "hidden_act": "silu",
+    "hidden_size": 3072,
+    "initializer_range": 0.02,
+    "intermediate_size": 18432,
+    "kv_lora_rank": 512,
+    "max_position_embeddings": 163840,
+    "model_type": "deepseek_v3",
+    "moe_intermediate_size": 2048,
+    "moe_layer_freq": 1,
+    "n_group": 8,
+    "n_routed_experts": 64,
+    "n_shared_experts": 1,
+    "norm_topk_prob": true,
+    "num_attention_heads": 128,
+    "num_experts_per_tok": 8,
+    "num_hidden_layers": 4,
+    "num_key_value_heads": 128,
+    "num_nextn_predict_layers": 1,
+    "pretraining_tp": 1,
+    "q_lora_rank": 1536,
+    "qk_nope_head_dim": 128,
+    "qk_rope_head_dim": 64,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "beta_fast": 32,
+      "beta_slow": 1,
+      "factor": 40,
+      "mscale": 1.0,
+      "mscale_all_dim": 1.0,
+      "original_max_position_embeddings": 4096,
+      "type": "yarn"
+    },
+    "rope_theta": 10000,
+    "routed_scaling_factor": 2.5,
+    "scoring_func": "sigmoid",
+    "seq_aux": true,
+    "tie_word_embeddings": false,
+    "topk_group": 4,
+    "topk_method": "noaux_tc",
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.33.1",
+    "use_cache": true,
+    "v_head_dim": 128,
+    "vocab_size": 129280
+  }
diff --git a/tests/cpu/hf_configs/deepseekv3/configuration_deepseek.py b/tests/cpu/hf_configs/deepseekv3/configuration_deepseek.py
diff --git a/tests/cpu/hf_configs/deepseekv3/modeling_deepseek.py b/tests/cpu/hf_configs/deepseekv3/modeling_deepseek.py
diff --git a/tests/cpu/test_ipex_optimize_transformers_nightly.py b/tests/cpu/test_ipex_optimize_transformers_nightly.py

Original file line number	Diff line number	Diff line change
`@@ -594,6 +594,7 @@ def main(args_in: Optional[List[str]] = None) -> None:`
`594`	`594`	`"maira": ("/maira2_local_shard"),`
`595`	`595`	`"jamba": ("/jamba_local_shard"),`
`596`	`596`	`"deepseek-v2": ("/deepseekv2_local_shard"),`
	`597`	`+ "deepseek-v3": ("/deepseekv3_local_shard"),`
`597`	`598`	`}`
`598`	`599`	`model_type = next(`
`599`	`600`	`(`
Original file line number	Diff line number	Diff line change
`@@ -36,6 +36,7 @@`
`36`	`36`	`"maira-2": (AutoModelForCausalLM, AutoProcessor),`
`37`	`37`	`"jamba": (AutoModelForCausalLM, AutoTokenizer),`
`38`	`38`	`"deepseek-v2": (AutoModelForCausalLM, AutoTokenizer),`
	`39`	`+ "deepseek-v3": (AutoModelForCausalLM, AutoTokenizer),`
`39`	`40`	`"auto": (AutoModelForCausalLM, AutoTokenizer),`
`40`	`41`	`}`
`41`	`42`