jd-opensource
diff --git a/‎xllm/core/framework/batch/batch_input_builder.h‎
Lines changed: 1 addition & 1 deletion b/‎xllm/core/framework/batch/batch_input_builder.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎xllm/core/kernels/cuda/batch_decode.cpp‎
Lines changed: 49 additions & 0 deletions b/‎xllm/core/kernels/cuda/batch_decode.cpp‎
Lines changed: 49 additions & 0 deletions
diff --git a/‎xllm/core/kernels/cuda/batch_prefill.cpp‎
Lines changed: 210 additions & 0 deletions b/‎xllm/core/kernels/cuda/batch_prefill.cpp‎
Lines changed: 210 additions & 0 deletions
diff --git a/‎xllm/core/kernels/cuda/cuda_ops_api.h‎
Lines changed: 28 additions & 30 deletions b/‎xllm/core/kernels/cuda/cuda_ops_api.h‎
Lines changed: 28 additions & 30 deletions
@@ -86,7 +86,7 @@ class BatchInputBuilder {
 #if defined(USE_NPU)
     std::vector<int32_t> seq_lens;
     std::vector<int32_t> q_seq_lens;
-#elif defined(USE_MLU)
+#elif defined(USE_MLU) || defined(USE_CUDA)
     std::vector<int32_t> seq_lens = {0};    // cu_seq_lens
     std::vector<int32_t> q_seq_lens = {0};  // q_cu_seq_len
 #endif
 
@@ -269,4 +269,53 @@ void BatchDecodeWithPagedKVCacheRun(TensorView float_workspace_buffer,
       });
 }
 
+void batch_decode(torch::Tensor& float_workspace_buffer,
+                  torch::Tensor& int_workspace_buffer,
+                  torch::Tensor& page_locked_int_workspace_buffer,
+                  const torch::Tensor& query,
+                  const torch::Tensor& k_cache,
+                  const torch::Tensor& v_cache,
+                  const torch::Tensor& q_cu_seq_lens,
+                  const torch::Tensor& paged_kv_indptr,
+                  const torch::Tensor& paged_kv_indices,
+                  const torch::Tensor& paged_kv_last_page_len,
+                  int64_t window_size_left,
+                  torch::Tensor& output,
+                  std::optional<torch::Tensor>& output_lse,
+                  bool enable_cuda_graph,
+                  bool enable_pdl) {
+  const int64_t batch_size = q_cu_seq_lens.size(0) - 1;
+  Array<int64_t> plan_info_vec = BatchDecodeWithPagedKVCachePlan(
+      float_workspace_buffer,
+      int_workspace_buffer,
+      page_locked_int_workspace_buffer,
+      q_cu_seq_lens,
+      batch_size,
+      query.size(2),    // num_qo_heads
+      k_cache.size(2),  // num_kv_heads
+      k_cache.size(1),  // page_size
+      enable_cuda_graph,
+      window_size_left,
+      /* logits_soft_cap*/ 0.0,  // not used
+      query.size(-1),            // head_dim_qk
+      v_cache.size(-1),          // head_dim_vo
+      torch::Tensor(),           // empty_q_data, not used
+      torch::Tensor());          // empty_kv_data, not used
+
+  BatchDecodeWithPagedKVCacheRun(float_workspace_buffer,
+                                 int_workspace_buffer,
+                                 plan_info_vec,
+                                 query,
+                                 k_cache,
+                                 v_cache,
+                                 paged_kv_indptr,
+                                 paged_kv_indices,
+                                 paged_kv_last_page_len,
+                                 output,
+                                 output_lse,
+                                 /*kv_layout_code=*/0,
+                                 window_size_left,
+                                 enable_pdl);
+}
+
 }  // namespace xllm::kernel::cuda
@@ -119,6 +119,162 @@ Array<int64_t> BatchPrefillWithKVCachePlan(
   return Array(plan_info.ToVector());
 }
 
+void BatchPrefillWithRaggedKVCacheRun(TensorView float_workspace_buffer,
+                                      TensorView int_workspace_buffer,
+                                      Array<int64_t> plan_info_vec,
+                                      TensorView q,
+                                      TensorView k,
+                                      TensorView v,
+                                      TensorView qo_indptr,
+                                      TensorView kv_indptr,
+                                      TensorView o,
+                                      Optional<TensorView> maybe_lse,
+                                      int64_t mask_mode_code,
+                                      int64_t layout,
+                                      int64_t window_left,
+                                      bool enable_pdl ADDITIONAL_FUNC_PARAMS) {
+  PrefillPlanInfo plan_info;
+  plan_info.FromVector(
+      std::vector<int64_t>(plan_info_vec.begin(), plan_info_vec.end()));
+  QKVLayout kv_layout = static_cast<QKVLayout>(layout);
+
+  int64_t num_qo_heads = q->shape[1];
+  int64_t head_dim_qk = q->shape[2];
+  int64_t num_kv_heads =
+      (kv_layout == QKVLayout::kNHD) ? k->shape[1] : k->shape[0];
+  uint32_t q_stride_n = q->strides[0], q_stride_h = q->strides[1], k_stride_n,
+           k_stride_h, v_stride_n, v_stride_h;
+  if (kv_layout == QKVLayout::kNHD) {
+    k_stride_n = k->strides[0];
+    k_stride_h = k->strides[1];
+    v_stride_n = v->strides[0];
+    v_stride_h = v->strides[1];
+  } else {
+    k_stride_h = k->strides[0];
+    k_stride_n = k->strides[1];
+    v_stride_h = v->strides[0];
+    v_stride_n = v->strides[1];
+  }
+
+  if (maybe_lse.has_value()) {
+    const auto& lse = *maybe_lse;
+    TVM_FFI_ICHECK_EQ(lse->shape[0], q->shape[0]);
+    TVM_FFI_ICHECK_EQ(lse->shape[1], q->shape[1]);
+  }
+
+  void* float_buffer_ptr = float_workspace_buffer->data;
+  void* int_buffer_ptr = int_workspace_buffer->data;
+
+  const MaskMode mask_mode = static_cast<MaskMode>(mask_mode_code);
+
+  cudaSetDevice(float_workspace_buffer->device.device_id);
+  const cudaStream_t stream = get_stream(float_workspace_buffer->device);
+
+  DISPATCH_context(
+      DTypeQ,
+      DTypeKV,
+      DTypeO,
+      IdType,
+      MASK_MODE,
+      HEAD_DIM_QK,
+      HEAD_DIM_VO,
+      POS_ENCODING_MODE,
+      USE_SLIDING_WINDOW,
+      USE_LOGITS_SOFT_CAP,
+      USE_FP16_QK_REDUCTION,
+      AttentionVariant,
+      RaggedParams,
+      PagedParams,
+      [&] {
+        RaggedParams params;
+
+        params.q = static_cast<DTypeQ*>(q->data);
+        params.k = static_cast<DTypeKV*>(k->data);
+        params.v = static_cast<DTypeKV*>(v->data);
+        params.o = static_cast<DTypeO*>(o->data);
+        params.lse = maybe_lse.has_value()
+                         ? static_cast<float*>(maybe_lse.value()->data)
+                         : nullptr;
+        params.q_indptr = static_cast<IdType*>(qo_indptr->data);
+        params.kv_indptr = static_cast<IdType*>(kv_indptr->data);
+        params.num_qo_heads = num_qo_heads;
+        params.num_kv_heads = num_kv_heads;
+        params.group_size = uint_fastdiv(num_qo_heads / num_kv_heads);
+        params.q_stride_n = q_stride_n;
+        params.q_stride_h = q_stride_h;
+        params.k_stride_n = k_stride_n;
+        params.k_stride_h = k_stride_h;
+        params.v_stride_n = v_stride_n;
+        params.v_stride_h = v_stride_h;
+        params.window_left = window_left;
+
+        params.request_indices = nullptr;
+        params.qo_tile_indices = nullptr;
+        params.kv_tile_indices = nullptr;
+        params.merge_indptr = nullptr;
+        params.o_indptr = nullptr;
+        params.kv_chunk_size_ptr = nullptr;
+        params.block_valid_mask = nullptr;
+        params.total_num_rows = nullptr;
+        params.max_total_num_rows = 0;
+        params.padded_batch_size = 0;
+        params.partition_kv = false;
+
+        ADDITIONAL_PARAMS_SETTER
+
+        DTypeO* tmp_v = nullptr;
+        float* tmp_s = nullptr;
+
+        params.request_indices = GetPtrFromBaseOffset<IdType>(
+            int_buffer_ptr, plan_info.request_indices_offset);
+        params.qo_tile_indices = GetPtrFromBaseOffset<IdType>(
+            int_buffer_ptr, plan_info.qo_tile_indices_offset);
+        params.kv_tile_indices = GetPtrFromBaseOffset<IdType>(
+            int_buffer_ptr, plan_info.kv_tile_indices_offset);
+        params.o_indptr = GetPtrFromBaseOffset<IdType>(
+            int_buffer_ptr, plan_info.o_indptr_offset);
+        params.kv_chunk_size_ptr = GetPtrFromBaseOffset<IdType>(
+            int_buffer_ptr, plan_info.kv_chunk_size_ptr_offset);
+        if (plan_info.split_kv) {
+          params.merge_indptr = GetPtrFromBaseOffset<IdType>(
+              int_buffer_ptr, plan_info.merge_indptr_offset);
+          tmp_v = GetPtrFromBaseOffset<DTypeO>(float_buffer_ptr,
+                                               plan_info.v_offset);
+          tmp_s =
+              GetPtrFromBaseOffset<float>(float_buffer_ptr, plan_info.s_offset);
+          if (plan_info.enable_cuda_graph) {
+            params.block_valid_mask = GetPtrFromBaseOffset<bool>(
+                int_buffer_ptr, plan_info.block_valid_mask_offset);
+          }
+        }
+        params.padded_batch_size = plan_info.padded_batch_size;
+        params.max_total_num_rows = plan_info.total_num_rows;
+        if (plan_info.enable_cuda_graph) {
+          params.total_num_rows = GetPtrFromBaseOffset<uint32_t>(
+              int_buffer_ptr, plan_info.total_num_rows_offset);
+        }
+
+        cudaError_t status = cudaSuccess;
+
+        DISPATCH_CTA_TILE_Q(plan_info.cta_tile_q, CTA_TILE_Q, {
+          status = flashinfer::BatchPrefillWithRaggedKVCacheDispatched<
+              CTA_TILE_Q,
+              HEAD_DIM_QK,
+              HEAD_DIM_VO,
+              POS_ENCODING_MODE,
+              /*use_fp16_qk_reduction=*/USE_FP16_QK_REDUCTION,
+              MASK_MODE,
+              AttentionVariant,
+              RaggedParams>(params, tmp_v, tmp_s, enable_pdl, stream);
+        });
+
+        TVM_FFI_ICHECK(status == cudaSuccess)
+            << "BatchPrefillWithRaggedKVCache failed with error "
+            << cudaGetErrorString(status);
+        return true;
+      });
+}
+
 void BatchPrefillWithPagedKVCacheRun(TensorView float_workspace_buffer,
                                      TensorView int_workspace_buffer,
                                      Array<int64_t> plan_info_vec,
@@ -287,4 +443,58 @@ void BatchPrefillWithPagedKVCacheRun(TensorView float_workspace_buffer,
       });
 }
 
+void batch_prefill(torch::Tensor& float_workspace_buffer,
+                   torch::Tensor& int_workspace_buffer,
+                   torch::Tensor& page_locked_int_workspace_buffer,
+                   const torch::Tensor& query,
+                   const torch::Tensor& key,
+                   const torch::Tensor& value,
+                   const torch::Tensor& q_cu_seq_lens,
+                   const torch::Tensor& kv_cu_seq_lens,
+                   int64_t window_size_left,
+                   torch::Tensor& output,
+                   std::optional<torch::Tensor>& output_lse,
+                   bool enable_cuda_graph,
+                   bool enable_pdl) {
+  torch::Tensor kv_len_arr =
+      kv_cu_seq_lens.slice(0, 1) - kv_cu_seq_lens.slice(0, 0, -1);
+  const int64_t total_num_rows = q_cu_seq_lens[-1].item<int64_t>();
+  const int64_t batch_size = q_cu_seq_lens.size(0) - 1;
+
+  Array<int64_t> plan_info_vec = BatchPrefillWithKVCachePlan(
+      float_workspace_buffer,
+      int_workspace_buffer,
+      page_locked_int_workspace_buffer,
+      q_cu_seq_lens,
+      kv_cu_seq_lens,
+      kv_len_arr,
+      total_num_rows,
+      batch_size,
+      query.size(-1),  // num_qo_heads
+      key.size(-1),    // num_kv_heads
+      /*page_size=*/1,
+      enable_cuda_graph,  // enable_cuda_graph
+      query.size(1),      // head_dim_qk
+      query.size(1),      // head_dim_vo
+      /*causal=*/true,
+      window_size_left,
+      /*fixed_split_size=*/-1,
+      /*disable_split_kv=*/false);  // disable_split_kv
+
+  BatchPrefillWithRaggedKVCacheRun(float_workspace_buffer,
+                                   int_workspace_buffer,
+                                   plan_info_vec,
+                                   query,
+                                   key,
+                                   value,
+                                   q_cu_seq_lens,
+                                   kv_cu_seq_lens,
+                                   output,
+                                   output_lse,
+                                   /*mask_mode_code=CAUSAL*/ 1,
+                                   /*layout=*/0,
+                                   window_size_left,
+                                   enable_pdl);
+}
+
 }  // namespace xllm::kernel::cuda
@@ -41,37 +41,35 @@ void reshape_paged_cache(
     torch::Tensor& key_cache,       // [n_blocks, block_size, n_heads, head_dim]
     torch::Tensor& value_cache);
 
-void BatchPrefillWithPagedKVCacheRun(TensorView float_workspace_buffer,
-                                     TensorView int_workspace_buffer,
-                                     Array<int64_t> plan_info_vec,
-                                     TensorView q,
-                                     TensorView paged_k_cache,
-                                     TensorView paged_v_cache,
-                                     TensorView qo_indptr,
-                                     TensorView paged_kv_indptr,
-                                     TensorView paged_kv_indices,
-                                     TensorView paged_kv_last_page_len,
-                                     TensorView o,
-                                     Optional<TensorView> maybe_lse,
-                                     int64_t mask_mode_code,
-                                     int64_t layout,
-                                     int64_t window_left,
-                                     bool enable_pdl ADDITIONAL_FUNC_PARAMS);
+void batch_prefill(torch::Tensor& float_workspace_buffer,
+                   torch::Tensor& int_workspace_buffer,
+                   torch::Tensor& page_locked_int_workspace_buffer,
+                   const torch::Tensor& query,
+                   const torch::Tensor& key,
+                   const torch::Tensor& value,
+                   const torch::Tensor& q_cu_seq_lens,
+                   const torch::Tensor& kv_cu_seq_lens,
+                   int64_t window_size_left,
+                   torch::Tensor& output,
+                   std::optional<torch::Tensor>& output_lse,
+                   bool enable_cuda_graph,
+                   bool enable_pdl);
 
-void BatchDecodeWithPagedKVCacheRun(TensorView float_workspace_buffer,
-                                    TensorView int_workspace_buffer,
-                                    Array<int64_t> plan_info_vec,
-                                    TensorView q,
-                                    TensorView paged_k_cache,
-                                    TensorView paged_v_cache,
-                                    TensorView paged_kv_indptr,
-                                    TensorView paged_kv_indices,
-                                    TensorView paged_kv_last_page_len,
-                                    TensorView o,
-                                    Optional<TensorView> maybe_lse,
-                                    int64_t kv_layout_code,
-                                    int64_t window_left,
-                                    bool enable_pdl ADDITIONAL_FUNC_PARAMS);
+void batch_decode(torch::Tensor& float_workspace_buffer,
+                  torch::Tensor& int_workspace_buffer,
+                  torch::Tensor& page_locked_int_workspace_buffer,
+                  const torch::Tensor& query,
+                  const torch::Tensor& k_cache,
+                  const torch::Tensor& v_cache,
+                  const torch::Tensor& q_cu_seq_lens,
+                  const torch::Tensor& paged_kv_indptr,
+                  const torch::Tensor& paged_kv_indices,
+                  const torch::Tensor& paged_kv_last_page_len,
+                  int64_t window_size_left,
+                  torch::Tensor& output,
+                  std::optional<torch::Tensor>& output_lse,
+                  bool enable_cuda_graph,
+                  bool enable_pdl);
 
 void rmsnorm(TensorView output,
              TensorView input,