PaddlePaddle
diff --git a/‎backends/intel_hpu/custom_ops/llama_infer/fused_gate_moe.cc
Lines changed: 112 additions & 97 deletions b/‎backends/intel_hpu/custom_ops/llama_infer/fused_gate_moe.cc
Lines changed: 112 additions & 97 deletions
@@ -344,9 +344,11 @@ void FusedGateMoeKernel(
     const phi::DenseTensor& hidden_states,
     const phi::DenseTensor& gate_out,
     const paddle::optional<phi::DenseTensor>& gate_correction_bias,
-    const std::vector<phi::DenseTensor>& gate_up_weights,
-    const std::vector<phi::DenseTensor>& down_weights,
-    const paddle::optional<std::vector<phi::DenseTensor>>& scales,
+    const phi::DenseTensor& gate_up_weights,
+    const phi::DenseTensor& down_weights,
+    const paddle::optional<phi::DenseTensor>& intermediate_hidden_states_scales,
+    const paddle::optional<phi::DenseTensor>& gate_up_weights_scales,
+    const paddle::optional<phi::DenseTensor>& down_weights_scales,
     phi::DenseTensor* final_hidden_states,
     const int top_k,
     const bool moe_use_gate_correction_bias,
@@ -358,14 +360,20 @@ void FusedGateMoeKernel(
     const bool measurement_mode,
     const bool dynamic_scale,
     const int block_size) {
+  std::vector<int64_t> gate_up_weights_dims =
+      phi::vectorize<int64_t>(gate_up_weights.dims());
+  std::vector<int64_t> down_weights_dims =
+      phi::vectorize<int64_t>(down_weights.dims());
   FusedGateMoeParams params;
   memset(reinterpret_cast<void*>(&params), 0x00, sizeof(FusedGateMoeParams));
   params.topk = top_k;
   params.moe_use_gate_correction_bias = moe_use_gate_correction_bias;
   params.norm_topk_prob = norm_topk_prob;
   params.permuted_weights = permuted_weights;
-  params.fused_gemm = (gate_up_weights.size() == down_weights.size());
-  params.num_experts = down_weights.size();
+  // TODO(yanfeich): add optional up_weights
+  params.fused_gemm = (gate_up_weights_dims[2] == down_weights_dims[1] * 2);
+  params.measurement_mode = measurement_mode;
+  params.num_experts = gate_up_weights_dims[0];
   params.experts_min = experts_min;
   params.experts_max = experts_max;
   params.dynamic_scale = dynamic_scale;
@@ -380,16 +388,18 @@ void FusedGateMoeKernel(
   if (moe_use_gate_correction_bias) {
     ct.Add(gate_correction_bias.get());
   }
-  for (const auto& t : gate_up_weights) {
-    ct.Add(t);
+
+  ct.AddN(gate_up_weights);
+  ct.AddN(down_weights);
+
+  if (intermediate_hidden_states_scales) {
+    ct.AddN(intermediate_hidden_states_scales.get());
   }
-  for (const auto& t : down_weights) {
-    ct.Add(t);
+  if (gate_up_weights_scales) {
+    ct.AddN(gate_up_weights_scales.get());
   }
-  if (scales) {
-    for (const auto& t : scales.get()) {
-      ct.Add(t);
-    }
+  if (down_weights_scales) {
+    ct.AddN(down_weights_scales.get());
   }
 
   ct.Add(*final_hidden_states, false);
@@ -424,9 +434,11 @@ void CallFusedGateMoeKernel(
     const phi::DenseTensor& hidden_states,
     const phi::DenseTensor& gate_out,
     const paddle::optional<phi::DenseTensor>& gate_correction_bias,
-    const std::vector<phi::DenseTensor>& gate_up_weights,
-    const std::vector<phi::DenseTensor>& down_weights,
-    const paddle::optional<std::vector<phi::DenseTensor>>& scales,
+    const phi::DenseTensor& gate_up_weights,
+    const phi::DenseTensor& down_weights,
+    const paddle::optional<phi::DenseTensor>& intermediate_hidden_states_scales,
+    const paddle::optional<phi::DenseTensor>& gate_up_weights_scales,
+    const paddle::optional<phi::DenseTensor>& down_weights_scales,
     phi::DenseTensor* final_hidden_states,
     const int top_k,
     const bool moe_use_gate_correction_bias,
@@ -450,7 +462,9 @@ void CallFusedGateMoeKernel(
           gate_correction_bias,
           gate_up_weights,
           down_weights,
-          scales,
+          intermediate_hidden_states_scales,
+          gate_up_weights_scales,
+          down_weights_scales,
           final_hidden_states,
           top_k,
           moe_use_gate_correction_bias,
@@ -471,7 +485,9 @@ void CallFusedGateMoeKernel(
           gate_correction_bias,
           gate_up_weights,
           down_weights,
-          scales,
+          intermediate_hidden_states_scales,
+          gate_up_weights_scales,
+          down_weights_scales,
           final_hidden_states,
           top_k,
           moe_use_gate_correction_bias,
@@ -493,8 +509,8 @@ std::vector<paddle::Tensor> FusedGateMoeForward(
     const paddle::Tensor& hidden_states,
     const paddle::Tensor& gate_out,
     const paddle::optional<paddle::Tensor>& gate_correction_bias,
-    const std::vector<paddle::Tensor>& gate_up_weights,
-    const std::vector<paddle::Tensor>& down_weights,
+    const paddle::Tensor& gate_up_weights,
+    const paddle::Tensor& down_weights,
     const int top_k,
     const bool moe_use_gate_correction_bias,
     const bool norm_topk_prob,
@@ -519,16 +535,10 @@ std::vector<paddle::Tensor> FusedGateMoeForward(
         paddle::optional<phi::DenseTensor>(*gate_correction_bias_dt);
   }
 
-  std::vector<phi::DenseTensor> gate_up_weights_vec;
-  for (const auto& t : gate_up_weights) {
-    gate_up_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
-  std::vector<phi::DenseTensor> down_weights_vec;
-  for (const auto& t : down_weights) {
-    down_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
+  auto gate_up_weights_tensor =
+      static_cast<const phi::DenseTensor*>(gate_up_weights.impl().get());
+  auto down_weights_tensor =
+      static_cast<const phi::DenseTensor*>(down_weights.impl().get());
 
   std::shared_ptr<phi::DenseTensor> final_hidden_states =
       std::make_shared<phi::DenseTensor>();
@@ -540,9 +550,11 @@ std::vector<paddle::Tensor> FusedGateMoeForward(
       *hidden_states_tensor,
       *gate_out_tensor,
       gate_correction_tensor,
-      gate_up_weights_vec,
-      down_weights_vec,
-      paddle::optional<std::vector<phi::DenseTensor>>(), /* scales */
+      *gate_up_weights_tensor,
+      *down_weights_tensor,
+      paddle::optional<phi::DenseTensor>(), /* int..hid..st.._scales_tensor */
+      paddle::optional<phi::DenseTensor>(), /* gate_up_weights_scales_tensor */
+      paddle::optional<phi::DenseTensor>(), /* down_weights_scales_tensor */
       final_hidden_states.get(),
       top_k,
       moe_use_gate_correction_bias,
@@ -563,12 +575,11 @@ std::vector<paddle::Tensor> FusedGateMoeFP8Forward(
     const paddle::Tensor& hidden_states,
     const paddle::Tensor& gate_out,
     const paddle::optional<paddle::Tensor>& gate_correction_bias,
-    const std::vector<paddle::Tensor>& gate_up_weights,
-    const std::vector<paddle::Tensor>& down_weights,
-    const paddle::optional<std::vector<paddle::Tensor>>&
-        intermediate_hidden_states_scales,
-    const std::vector<paddle::Tensor>& gate_up_weights_scales,
-    const std::vector<paddle::Tensor>& down_weights_scales,
+    const paddle::Tensor& gate_up_weights,
+    const paddle::Tensor& down_weights,
+    const paddle::optional<paddle::Tensor>& intermediate_hidden_states_scales,
+    const paddle::Tensor& gate_up_weights_scales,
+    const paddle::Tensor& down_weights_scales,
     const int top_k,
     const bool moe_use_gate_correction_bias,
     const bool norm_topk_prob,
@@ -593,33 +604,35 @@ std::vector<paddle::Tensor> FusedGateMoeFP8Forward(
         paddle::optional<phi::DenseTensor>(*gate_correction_bias_dt);
   }
 
-  std::vector<phi::DenseTensor> gate_up_weights_vec;
-  for (const auto& t : gate_up_weights) {
-    gate_up_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
-  std::vector<phi::DenseTensor> down_weights_vec;
-  for (const auto& t : down_weights) {
-    down_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
+  auto gate_up_weights_tensor =
+      static_cast<const phi::DenseTensor*>(gate_up_weights.impl().get());
+  auto down_weights_tensor =
+      static_cast<const phi::DenseTensor*>(down_weights.impl().get());
 
   bool dynamic_scale = true;
-  std::vector<phi::DenseTensor> scales_vec;
+  auto intermediate_hidden_states_scales_tensor =
+      paddle::optional<phi::DenseTensor>();
   if (intermediate_hidden_states_scales) {
     dynamic_scale = false;
-    for (const auto& t : intermediate_hidden_states_scales.get()) {
-      scales_vec.push_back(
-          *static_cast<const phi::DenseTensor*>(t.impl().get()));
-    }
-  }
-  for (const auto& t : gate_up_weights_scales) {
-    scales_vec.push_back(*static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
-  for (const auto& t : down_weights_scales) {
-    scales_vec.push_back(*static_cast<const phi::DenseTensor*>(t.impl().get()));
+    auto intermediate_hidden_states_scales_dt = static_cast<phi::DenseTensor*>(
+        intermediate_hidden_states_scales->impl().get());
+    intermediate_hidden_states_scales_tensor =
+        paddle::optional<phi::DenseTensor>(
+            *intermediate_hidden_states_scales_dt);
   }
 
+  auto gate_up_weights_scales_tensor = paddle::optional<phi::DenseTensor>();
+  auto gate_up_weights_scales_dt =
+      static_cast<const phi::DenseTensor*>(gate_up_weights_scales.impl().get());
+  gate_up_weights_scales_tensor =
+      paddle::optional<phi::DenseTensor>(*gate_up_weights_scales_dt);
+
+  auto down_weights_scales_tensor = paddle::optional<phi::DenseTensor>();
+  auto down_weights_scales_dt =
+      static_cast<const phi::DenseTensor*>(down_weights_scales.impl().get());
+  down_weights_scales_tensor =
+      paddle::optional<phi::DenseTensor>(*down_weights_scales_dt);
+
   std::shared_ptr<phi::DenseTensor> final_hidden_states =
       std::make_shared<phi::DenseTensor>();
   final_hidden_states->Resize(hidden_states.dims());
@@ -630,9 +643,11 @@ std::vector<paddle::Tensor> FusedGateMoeFP8Forward(
       *hidden_states_tensor,
       *gate_out_tensor,
       gate_correction_tensor,
-      gate_up_weights_vec,
-      down_weights_vec,
-      scales_vec,
+      *gate_up_weights_tensor,
+      *down_weights_tensor,
+      intermediate_hidden_states_scales_tensor,
+      gate_up_weights_scales_tensor,
+      down_weights_scales_tensor,
       final_hidden_states.get(),
       top_k,
       moe_use_gate_correction_bias,
@@ -652,10 +667,10 @@ std::vector<paddle::Tensor> FusedGateMoeBlockWiseFP8Forward(
     const paddle::Tensor& hidden_states,
     const paddle::Tensor& gate_out,
     const paddle::optional<paddle::Tensor>& gate_correction_bias,
-    const std::vector<paddle::Tensor>& gate_up_weights,
-    const std::vector<paddle::Tensor>& down_weights,
-    const std::vector<paddle::Tensor>& gate_up_weights_scales,
-    const std::vector<paddle::Tensor>& down_weights_scales,
+    const paddle::Tensor& gate_up_weights,
+    const paddle::Tensor& down_weights,
+    const paddle::Tensor& gate_up_weights_scales,
+    const paddle::Tensor& down_weights_scales,
     const int top_k,
     const bool moe_use_gate_correction_bias,
     const bool norm_topk_prob,
@@ -681,24 +696,22 @@ std::vector<paddle::Tensor> FusedGateMoeBlockWiseFP8Forward(
         paddle::optional<phi::DenseTensor>(*gate_correction_bias_dt);
   }
 
-  std::vector<phi::DenseTensor> gate_up_weights_vec;
-  for (const auto& t : gate_up_weights) {
-    gate_up_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
-  std::vector<phi::DenseTensor> down_weights_vec;
-  for (const auto& t : down_weights) {
-    down_weights_vec.push_back(
-        *static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
+  auto gate_up_weights_tensor =
+      static_cast<const phi::DenseTensor*>(gate_up_weights.impl().get());
+  auto down_weights_tensor =
+      static_cast<const phi::DenseTensor*>(down_weights.impl().get());
 
-  std::vector<phi::DenseTensor> scales_vec;
-  for (const auto& t : gate_up_weights_scales) {
-    scales_vec.push_back(*static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
-  for (const auto& t : down_weights_scales) {
-    scales_vec.push_back(*static_cast<const phi::DenseTensor*>(t.impl().get()));
-  }
+  auto gate_up_weights_scales_tensor = paddle::optional<phi::DenseTensor>();
+  auto gate_up_weights_scales_dt =
+      static_cast<const phi::DenseTensor*>(gate_up_weights_scales.impl().get());
+  gate_up_weights_scales_tensor =
+      paddle::optional<phi::DenseTensor>(*gate_up_weights_scales_dt);
+
+  auto down_weights_scales_tensor = paddle::optional<phi::DenseTensor>();
+  auto down_weights_scales_dt =
+      static_cast<const phi::DenseTensor*>(down_weights_scales.impl().get());
+  down_weights_scales_tensor =
+      paddle::optional<phi::DenseTensor>(*down_weights_scales_dt);
 
   std::shared_ptr<phi::DenseTensor> final_hidden_states =
       std::make_shared<phi::DenseTensor>();
@@ -710,9 +723,11 @@ std::vector<paddle::Tensor> FusedGateMoeBlockWiseFP8Forward(
       *hidden_states_tensor,
       *gate_out_tensor,
       gate_correction_tensor,
-      gate_up_weights_vec,
-      down_weights_vec,
-      scales_vec,
+      *gate_up_weights_tensor,
+      *down_weights_tensor,
+      paddle::optional<phi::DenseTensor>(), /* scales */
+      gate_up_weights_scales_tensor,
+      down_weights_scales_tensor,
       final_hidden_states.get(),
       top_k,
       moe_use_gate_correction_bias,
@@ -755,8 +770,8 @@ PD_BUILD_OP(fused_gate_moe)
     .Inputs({"hidden_states",
              "gate_out",
              paddle::Optional("gate_correction_bias"),
-             paddle::Vec("gate_up_weights"),
-             paddle::Vec("down_weights")})
+             "gate_up_weights",
+             "down_weights"})
     .Outputs({"final_hidden_states"})
     .Attrs({"top_k: int",
             "moe_use_gate_correction_bias: bool",
@@ -780,11 +795,11 @@ PD_BUILD_OP(fused_gate_moe_fp8)
     .Inputs({"hidden_states",
              "gate_out",
              paddle::Optional("gate_correction_bias"),
-             paddle::Vec("gate_up_weights"),
-             paddle::Vec("down_weights"),
+             "gate_up_weights",
+             "down_weights",
              paddle::Optional(paddle::Vec("intermediate_hidden_states_scales")),
-             paddle::Vec("gate_up_weights_scales"),
-             paddle::Vec("down_weights_scales")})
+             "gate_up_weights_scales",
+             "down_weights_scales"})
     .Outputs({"final_hidden_states"})
     .Attrs({"top_k: int",
             "moe_use_gate_correction_bias: bool",
@@ -807,10 +822,10 @@ PD_BUILD_OP(fused_gate_moe_blockwise_fp8)
     .Inputs({"hidden_states",
              "gate_out",
              paddle::Optional("gate_correction_bias"),
-             paddle::Vec("gate_up_weights"),
-             paddle::Vec("down_weights"),
-             paddle::Vec("gate_up_weights_scales"),
-             paddle::Vec("down_weights_scales")})
+             "gate_up_weights",
+             "down_weights",
+             "gate_up_weights_scales",
+             "down_weights_scales"})
     .Outputs({"final_hidden_states"})
     .Attrs({"top_k: int",
             "moe_use_gate_correction_bias: bool",