intel
diff --git a/‎csrc/cpu/aten/MoE.cpp‎
Lines changed: 103 additions & 33 deletions b/‎csrc/cpu/aten/MoE.cpp‎
Lines changed: 103 additions & 33 deletions
diff --git a/‎csrc/cpu/aten/MoE.h‎
Lines changed: 21 additions & 12 deletions b/‎csrc/cpu/aten/MoE.h‎
Lines changed: 21 additions & 12 deletions
@@ -9,6 +9,7 @@ IPEX_DEFINE_DISPATCH(mixtral_moe_tpp_kernel_stub);
 IPEX_DEFINE_DISPATCH(mixtral_moe_woq_kernel_stub);
 IPEX_DEFINE_DISPATCH(deepseek_moe_woq_kernel_stub);
 IPEX_DEFINE_DISPATCH(mixtral_moe_kernel_stub);
+IPEX_DEFINE_DISPATCH(deepseek_moegate_kernel_stub);
 
 at::Tensor mixtral_moe_tpp(
     const at::Tensor& hidden_states,
@@ -39,25 +40,53 @@ at::Tensor mixtral_moe_tpp(
       is_distributed);
 }
 
+inline std::tuple<
+    std::vector<long>,
+    std::vector<std::vector<long>>,
+    std::vector<std::vector<long>>>
+get_expert_topx_idx(const at::Tensor& topk_ids, const int num_experts) {
+  auto token_num = topk_ids.size(0);
+  auto topk = topk_ids.size(1);
+  std::vector<long> expert_selected(num_experts, 0);
+  std::vector<std::vector<long>> expert_idx(num_experts);
+  std::vector<std::vector<long>> expert_top_x(num_experts);
+  auto topk_ids_ptr = topk_ids.data_ptr<long>();
+  auto topk_ids_stride0 = topk_ids.stride(0);
+  for (auto i = 0; i < token_num; i++) {
+    for (auto j = 0; j < topk; j++) {
+      auto expert_id = topk_ids_ptr[i * topk_ids_stride0 + j];
+      expert_selected[expert_id] += 1;
+      expert_top_x[expert_id].push_back(i);
+      expert_idx[expert_id].push_back(j);
+    }
+  }
+  return std::make_tuple(expert_selected, expert_idx, expert_top_x);
+}
+
 at::Tensor deepseek_moe_tpp(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<at::Tensor>& down_wei,
     bool tpp_fallback,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed) {
   RECORD_FUNCTION("ipex::deepseek_moe_tpp", c10::ArrayRef<c10::IValue>({}));
 
+  auto output = at::zeros_like(hidden_states);
   int num_experts = gate_wei.size();
+  std::vector<long> expert_selected;
+  std::vector<std::vector<long>> expert_idx, expert_top_x;
+  std::tie(expert_selected, expert_idx, expert_top_x) =
+      get_expert_topx_idx(topk_ids, num_experts);
   for (auto i = 0; i < num_experts; i++) {
-    auto non_zero = expert_mask[i].nonzero();
-    if (non_zero.sizes()[0] == 0)
+    if (expert_selected[i] == 0)
       continue;
-    auto idx = non_zero.select(1, 0);
-    auto top_x = non_zero.select(1, 1);
+    auto idx =
+        torch::from_blob(expert_idx[i].data(), {expert_selected[i]}, at::kLong);
+    auto top_x = torch::from_blob(
+        expert_top_x[i].data(), {expert_selected[i]}, at::kLong);
     output = mixtral_moe_tpp_kernel_stub(
         kCPU,
         hidden_states,
@@ -111,26 +140,30 @@ at::Tensor mixtral_moe(
 
 at::Tensor deepseek_moe(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& gate_op_ctx,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& up_op_ctx,
     const std::vector<at::Tensor>& down_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& down_op_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed) {
   RECORD_FUNCTION("ipex::deepseek_moe", c10::ArrayRef<c10::IValue>({}));
 
+  auto output = at::zeros_like(hidden_states);
   int num_experts = gate_wei.size();
+  std::vector<long> expert_selected;
+  std::vector<std::vector<long>> expert_idx, expert_top_x;
+  std::tie(expert_selected, expert_idx, expert_top_x) =
+      get_expert_topx_idx(topk_ids, num_experts);
   for (auto i = 0; i < num_experts; i++) {
-    auto non_zero = expert_mask[i].nonzero();
-    if (non_zero.sizes()[0] == 0)
+    if (expert_selected[i] == 0)
       continue;
-    auto idx = non_zero.select(1, 0);
-    auto top_x = non_zero.select(1, 1);
-
+    auto idx =
+        torch::from_blob(expert_idx[i].data(), {expert_selected[i]}, at::kLong);
+    auto top_x = torch::from_blob(
+        expert_top_x[i].data(), {expert_selected[i]}, at::kLong);
     output = mixtral_moe_kernel_stub(
         kCPU,
         hidden_states,
@@ -152,25 +185,30 @@ at::Tensor deepseek_moe(
 
 at::Tensor deepseek_moe_mkl(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& gate_op_ctx,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& up_op_ctx,
     const std::vector<at::Tensor>& down_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& down_op_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed) {
   RECORD_FUNCTION("ipex::deepseek_moe_mkl", c10::ArrayRef<c10::IValue>({}));
 
+  auto output = at::zeros_like(hidden_states);
   int num_experts = gate_wei.size();
+  std::vector<long> expert_selected;
+  std::vector<std::vector<long>> expert_idx, expert_top_x;
+  std::tie(expert_selected, expert_idx, expert_top_x) =
+      get_expert_topx_idx(topk_ids, num_experts);
   for (auto i = 0; i < num_experts; i++) {
-    auto non_zero = expert_mask[i].nonzero();
-    if (non_zero.sizes()[0] == 0)
+    if (expert_selected[i] == 0)
       continue;
-    auto idx = non_zero.select(1, 0);
-    auto top_x = non_zero.select(1, 1);
+    auto idx =
+        torch::from_blob(expert_idx[i].data(), {expert_selected[i]}, at::kLong);
+    auto top_x = torch::from_blob(
+        expert_top_x[i].data(), {expert_selected[i]}, at::kLong);
     output = mixtral_moe_kernel_stub(
         kCPU,
         hidden_states,
@@ -217,22 +255,27 @@ at::Tensor mixtral_moe_woq(
 }
 at::Tensor deepseek_moe_woq(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& gate_ctx,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& up_ctx,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& down_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed) {
   RECORD_FUNCTION("ipex::deepseek_moe_woq", c10::ArrayRef<c10::IValue>({}));
 
+  auto output = at::zeros_like(hidden_states);
   int num_experts = gate_ctx.size();
+  std::vector<long> expert_selected;
+  std::vector<std::vector<long>> expert_idx, expert_top_x;
+  std::tie(expert_selected, expert_idx, expert_top_x) =
+      get_expert_topx_idx(topk_ids, num_experts);
   for (auto i = 0; i < num_experts; i++) {
-    auto non_zero = expert_mask[i].nonzero();
-    if (non_zero.sizes()[0] == 0)
+    if (expert_selected[i] == 0)
       continue;
-    auto idx = non_zero.select(1, 0);
-    auto top_x = non_zero.select(1, 1);
+    auto idx =
+        torch::from_blob(expert_idx[i].data(), {expert_selected[i]}, at::kLong);
+    auto top_x = torch::from_blob(
+        expert_top_x[i].data(), {expert_selected[i]}, at::kLong);
     output = mixtral_moe_woq_kernel_stub(
         kCPU,
         hidden_states,
@@ -247,6 +290,27 @@ at::Tensor deepseek_moe_woq(
   }
   return output;
 }
+
+std::tuple<at::Tensor, at::Tensor> deepseek_moegate(
+    const at::Tensor& hidden_states,
+    const at::Tensor& scores,
+    const at::Tensor& routed_scaling_factor,
+    const int64_t n_group,
+    const int64_t topk_group,
+    const int64_t n_routed_experts,
+    const int64_t top_k) {
+  RECORD_FUNCTION("ipex::deepseek_moegate", c10::ArrayRef<c10::IValue>({}));
+
+  return deepseek_moegate_kernel_stub(
+      kCPU,
+      hidden_states,
+      scores,
+      routed_scaling_factor,
+      n_group,
+      topk_group,
+      n_routed_experts,
+      top_k);
+}
 } // namespace cpu
 } // namespace torch_ipex
 
@@ -262,9 +326,9 @@ TORCH_LIBRARY_FRAGMENT(torch_ipex, m) {
       c10::DispatchKey::CPU,
       torch_ipex::cpu::mixtral_moe_tpp);
   m.def(
-      "deepseek_moe_tpp(Tensor hidden_states, Tensor expert_mask, Tensor[] gate_wei, \
+      "deepseek_moe_tpp(Tensor hidden_states, Tensor topk_ids, Tensor[] gate_wei, \
       Tensor[] up_wei, Tensor[] down_wei, bool tpp_fallback, Tensor routing_weights, \
-      Tensor output, bool is_distributed) -> Tensor");
+      bool is_distributed) -> Tensor");
   m.impl(
       "deepseek_moe_tpp",
       c10::DispatchKey::CPU,
@@ -275,18 +339,18 @@ TORCH_LIBRARY_FRAGMENT(torch_ipex, m) {
       Tensor down_op_ctx, bool use_dnnl, Tensor routing_weights, Tensor output, bool is_distributed) -> Tensor");
   m.impl("mixtral_moe", c10::DispatchKey::CPU, torch_ipex::cpu::mixtral_moe);
   m.def(
-      "deepseek_moe(Tensor hidden_states, Tensor expert_mask, Tensor[] gate_wei, \
+      "deepseek_moe(Tensor hidden_states, Tensor topk_ids, Tensor[] gate_wei, \
       __torch__.torch.classes.ipex_prepack.LinearOpContext[] gate_op_ctx, Tensor[] up_wei, \
       __torch__.torch.classes.ipex_prepack.LinearOpContext[] up_op_ctx, Tensor[] down_wei, \
       __torch__.torch.classes.ipex_prepack.LinearOpContext[] down_op_ctx, Tensor routing_weights, \
-      Tensor output, bool is_distributed) -> Tensor");
+      bool is_distributed) -> Tensor");
   m.impl("deepseek_moe", c10::DispatchKey::CPU, torch_ipex::cpu::deepseek_moe);
   m.def(
-      "deepseek_moe_mkl(Tensor hidden_states, Tensor expert_mask, Tensor[] gate_wei, \
+      "deepseek_moe_mkl(Tensor hidden_states, Tensor topk_ids, Tensor[] gate_wei, \
       __torch__.torch.classes.ipex_prepack.MKLOpContext[] gate_op_ctx, Tensor[] up_wei, \
       __torch__.torch.classes.ipex_prepack.MKLOpContext[] up_op_ctx, \
       Tensor[] down_wei, __torch__.torch.classes.ipex_prepack.MKLOpContext[] down_op_ctx, \
-      Tensor routing_weights, Tensor output, bool is_distributed) -> Tensor");
+      Tensor routing_weights, bool is_distributed) -> Tensor");
   m.impl(
       "deepseek_moe_mkl",
       c10::DispatchKey::CPU,
@@ -299,15 +363,21 @@ TORCH_LIBRARY_FRAGMENT(torch_ipex, m) {
       c10::DispatchKey::CPU,
       torch_ipex::cpu::mixtral_moe_woq);
   m.def(
-      "deepseek_moe_woq(Tensor hidden_states, Tensor expert_mask, \
+      "deepseek_moe_woq(Tensor hidden_states, Tensor topk_ids, \
       __torch__.torch.classes.ipex_prepack.WoqLinearOpContext[] gate_ctx, \
       __torch__.torch.classes.ipex_prepack.WoqLinearOpContext[] up_ctx, \
       __torch__.torch.classes.ipex_prepack.WoqLinearOpContext[] down_ctx, \
-      Tensor routing_weights, Tensor output, bool is_distributed) -> Tensor");
+      Tensor routing_weights, bool is_distributed) -> Tensor");
 
   m.impl(
       "deepseek_moe_woq",
       c10::DispatchKey::CPU,
       torch_ipex::cpu::deepseek_moe_woq);
+  m.def(
+      "deepseek_moegate(Tensor hidden_states, Tensor scores, Tensor routed_scaling_factor, int n_group, int topk_group, int n_routed_experts, int top_k) -> (Tensor, Tensor)");
+  m.impl(
+      "deepseek_moegate",
+      c10::DispatchKey::CPU,
+      torch_ipex::cpu::deepseek_moegate);
 }
 } // namespace
@@ -25,7 +25,6 @@ at::Tensor deepseek_moe_tpp(
     const std::vector<at::Tensor>&,
     bool,
     const at::Tensor&,
-    at::Tensor&,
     bool);
 at::Tensor mixtral_moe_woq(
     const at::Tensor&,
@@ -44,7 +43,6 @@ at::Tensor deepseek_moe_woq(
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>&,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>&,
     const at::Tensor&,
-    at::Tensor&,
     bool);
 at::Tensor mixtral_moe_woq(
     const at::Tensor&,
@@ -80,7 +78,6 @@ at::Tensor deepseek_moe(
     const std::vector<at::Tensor>&,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>&,
     const at::Tensor&,
-    at::Tensor&,
     bool);
 at::Tensor deepseek_moe_mkl(
     const at::Tensor&,
@@ -92,8 +89,15 @@ at::Tensor deepseek_moe_mkl(
     const std::vector<at::Tensor>&,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>&,
     const at::Tensor&,
-    at::Tensor&,
     bool);
+std::tuple<at::Tensor, at::Tensor> deepseek_moegate(
+    const at::Tensor& hidden_states,
+    const at::Tensor& scores,
+    const at::Tensor& routed_scaling_factor,
+    const int64_t n_group,
+    const int64_t topk_group,
+    const int64_t n_routed_experts,
+    const int64_t top_k);
 using mixtral_moe_tpp_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
     const at::Tensor& top_x,
@@ -107,13 +111,12 @@ using mixtral_moe_tpp_kernel_fn = at::Tensor (*)(
     bool is_distributed);
 using deepseek_moe_tpp_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<at::Tensor>& down_wei,
     bool tpp_fallback,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed);
 using mixtral_moe_woq_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
@@ -127,12 +130,11 @@ using mixtral_moe_woq_kernel_fn = at::Tensor (*)(
     bool is_distributed);
 using deepseek_moe_woq_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& gate_ctx,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& up_ctx,
     const std::vector<c10::intrusive_ptr<WoqLinearOpContext>>& down_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed);
 using mixtral_moe_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
@@ -150,34 +152,41 @@ using mixtral_moe_kernel_fn = at::Tensor (*)(
     bool is_distributed);
 using deepseek_moe_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& gate_op_ctx,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& up_op_ctx,
     const std::vector<at::Tensor>& down_wei,
     const std::vector<c10::intrusive_ptr<LinearOpContext>>& down_op_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed);
 using deepseek_moe_mkl_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
-    const at::Tensor& expert_mask,
+    const at::Tensor& topk_ids,
     const std::vector<at::Tensor>& gate_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& gate_op_ctx,
     const std::vector<at::Tensor>& up_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& up_op_ctx,
     const std::vector<at::Tensor>& down_wei,
     const std::vector<c10::intrusive_ptr<MKLOpContext>>& down_op_ctx,
     const at::Tensor& routing_weights,
-    at::Tensor& output,
     bool is_distributed);
+using deepseek_moegate_kernel_fn = std::tuple<at::Tensor, at::Tensor> (*)(
+    const at::Tensor& hidden_states,
+    const at::Tensor& scores,
+    const at::Tensor& routed_scaling_factor,
+    const int64_t n_group,
+    const int64_t topk_group,
+    const int64_t n_routed_experts,
+    const int64_t top_k);
 IPEX_DECLARE_DISPATCH(mixtral_moe_tpp_kernel_fn, mixtral_moe_tpp_kernel_stub);
 IPEX_DECLARE_DISPATCH(deepseek_moe_tpp_kernel_fn, deepseek_moe_tpp_kernel_stub);
 IPEX_DECLARE_DISPATCH(mixtral_moe_woq_kernel_fn, mixtral_moe_woq_kernel_stub);
 IPEX_DECLARE_DISPATCH(deepseek_moe_woq_kernel_fn, deepseek_moe_woq_kernel_stub);
 IPEX_DECLARE_DISPATCH(mixtral_moe_kernel_fn, mixtral_moe_kernel_stub);
 IPEX_DECLARE_DISPATCH(deepseek_moe_kernel_fn, deepseek_moe_kernel_stub);
 IPEX_DECLARE_DISPATCH(deepseek_moe_mkl_kernel_fn, deepseek_moe_mkl_kernel_stub);
+IPEX_DECLARE_DISPATCH(deepseek_moegate_kernel_fn, deepseek_moegate_kernel_stub);
 } // namespace cpu
 } // namespace torch_ipex