bugfix: fix runtime error for mlu.

XuZhang99 · XuZhang99 · commit e8024bc3c183 · 2025-10-23T14:42:32.000+08:00
diff --git a/xllm/core/kernels/ops_api.cpp b/xllm/core/kernels/ops_api.cpp
@@ -139,7 +139,7 @@ void batch_decode(AttentionParams& params) {
   mlu::batch_decode(params.query,
                     params.k_cache,
                     params.output,
-                    params.block_table,
+                    params.block_table.value(),
                     params.kv_seq_lens,
                     params.v_cache,
                     params.output_lse,
diff --git a/xllm/core/kernels/param.h b/xllm/core/kernels/param.h
@@ -72,7 +72,7 @@ struct AttentionParams {
   std::optional<torch::Tensor> alibi_slope;
   std::optional<torch::Tensor> q_quant_scale;
   std::optional<torch::Tensor> out_quant_scale;
-  torch::Tensor block_table;
+  std::optional<torch::Tensor> block_table;
   std::string compute_dtype;
   int max_seq_len;
   int window_size_left;
diff --git a/xllm/core/layers/mlu/attention.cpp b/xllm/core/layers/mlu/attention.cpp
@@ -139,6 +139,7 @@ std::tuple<torch::Tensor, std::optional<torch::Tensor>> AttentionImpl::forward(
 
     // for mlu
     attention_params.block_table = attn_metadata.block_table;
+    attention_params.kv_seq_lens = attn_metadata.kv_seq_lens;
 
     // for flashinfer
     attention_params.paged_kv_indptr = attn_metadata.paged_kv_indptr;