feat: add detailed parameters description to kernel parameters. (jd-opensource#342)

a120092009 · phantomlei3 · web-flow · commit 5d89633621db · 2025-11-11T17:14:02.000+08:00
Co-authored-by: phantomlei &lt;phantomlei3@gmail.com&gt;
diff --git a/xllm/core/kernels/mlu/fused_moe.cpp b/xllm/core/kernels/mlu/fused_moe.cpp
@@ -55,15 +55,9 @@ torch::Tensor fused_moe(
     int topk_group,
     double route_scale,
     int start_expert_id,
-    int block_n,
     bool avg_moe,
-    const std::optional<torch::Tensor>& class_reduce_weight,
-    const std::optional<torch::Tensor>& class_expert_id,
     const std::optional<torch::List<int64_t>>& w1_quant_flag,
-    const std::optional<torch::List<int64_t>>& w2_quant_flag,
-    int world_size,
-    int shared_expert_num,
-    const std::string& parallel_mode) {
+    const std::optional<torch::List<int64_t>>& w2_quant_flag) {
   auto dtype = hidden_states.dtype();
   auto ori_input_shape = hidden_states.sizes();
 
diff --git a/xllm/core/kernels/mlu/mlu_ops_api.h b/xllm/core/kernels/mlu/mlu_ops_api.h
@@ -160,15 +160,9 @@ torch::Tensor fused_moe(
     int topk_group,
     double route_scale,
     int start_expert_id,
-    int block_n,
     bool avg_moe,
-    const std::optional<torch::Tensor>& class_reduce_weight,
-    const std::optional<torch::Tensor>& class_expert_id,
     const std::optional<torch::List<int64_t>>& w1_quant_flag,
-    const std::optional<torch::List<int64_t>>& w2_quant_flag,
-    int world_size,
-    int shared_expert_num,
-    const std::string& parallel_mode);
+    const std::optional<torch::List<int64_t>>& w2_quant_flag);
 
 std::tuple<torch::Tensor, torch::Tensor> scaled_quantize(
     const torch::Tensor& x,
diff --git a/xllm/core/kernels/ops_api.cpp b/xllm/core/kernels/ops_api.cpp
@@ -231,15 +231,9 @@ torch::Tensor fused_moe(FusedMoEParams& params) {
                         params.topk_group,
                         params.route_scale,
                         params.start_expert_id,
-                        params.block_n,
                         params.avg_moe,
-                        params.class_reduce_weight,
-                        params.class_expert_id,
                         params.w1_quant_flag,
-                        params.w2_quant_flag,
-                        params.world_size,
-                        params.shared_expert_num,
-                        params.parallel_mode);
+                        params.w2_quant_flag);
 #elif defined(USE_CUDA)
   LOG(FATAL) << "fused_moe for cuda not implemented";
 #else
diff --git a/xllm/core/kernels/param.h b/xllm/core/kernels/param.h