PaddlePaddle
diff --git a/‎custom_ops/gpu_ops/cpp_extensions.cc‎
Lines changed: 33 additions & 41 deletions b/‎custom_ops/gpu_ops/cpp_extensions.cc‎
Lines changed: 33 additions & 41 deletions
diff --git a/‎custom_ops/gpu_ops/reasoning_phase_token_constraint.cu‎
Lines changed: 30 additions & 31 deletions b/‎custom_ops/gpu_ops/reasoning_phase_token_constraint.cu‎
Lines changed: 30 additions & 31 deletions
@@ -428,9 +428,9 @@ paddle::Tensor RebuildPaddingFunc(
     const paddle::Tensor& seq_len_this_time,
     const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& seq_lens_encoder,
-    const paddle::optional<paddle::Tensor>& output_padding_offset,
+    const paddle::optional<paddle::Tensor>& batch_id_per_token_output,
+    const paddle::optional<paddle::Tensor>& cu_seqlens_q_output,
     const paddle::optional<paddle::Tensor>& first_token_out,
-    int max_input_length,
     bool enable_logprob);
 
 void GetStopFlagsMulti(const paddle::Tensor& topk_ids,
@@ -747,28 +747,23 @@ std::vector<paddle::Tensor> SpeculateGetSeqLensOutput(
     const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& seq_lens_decoder);
 
-std::vector<paddle::Tensor> SpeculateGetOutputPaddingOffset(
-    const paddle::Tensor& output_cum_offsets_tmp,
-    const paddle::Tensor& out_token_num,
-    const paddle::Tensor& seq_lens_output,
+void SpecTokenPenaltyMultiScores(
+    const paddle::Tensor& pre_ids,
+    const paddle::Tensor& logits,
+    const paddle::Tensor& penalty_scores,
+    const paddle::Tensor& frequency_scores,
+    const paddle::Tensor& presence_scores,
+    const paddle::Tensor& temperatures,
+    const paddle::Tensor& bad_tokens,
+    const paddle::Tensor& bad_tokens_len,
+    const paddle::Tensor& cur_len,
+    const paddle::Tensor& min_len,
+    const paddle::Tensor& eos_token_id,
+    const paddle::Tensor& seq_lens_this_time,
+    const paddle::Tensor& batch_id_per_token_output,
+    const paddle::Tensor& cu_seqlens_q_output,
     const int max_seq_len);
 
-void SpecTokenPenaltyMultiScores(const paddle::Tensor& pre_ids,
-                                 const paddle::Tensor& logits,
-                                 const paddle::Tensor& penalty_scores,
-                                 const paddle::Tensor& frequency_scores,
-                                 const paddle::Tensor& presence_scores,
-                                 const paddle::Tensor& temperatures,
-                                 const paddle::Tensor& bad_tokens,
-                                 const paddle::Tensor& bad_tokens_len,
-                                 const paddle::Tensor& cur_len,
-                                 const paddle::Tensor& min_len,
-                                 const paddle::Tensor& eos_token_id,
-                                 const paddle::Tensor& seq_lens_this_time,
-                                 const paddle::Tensor& output_padding_offset,
-                                 const paddle::Tensor& output_cum_offsets,
-                                 const int max_seq_len);
-
 void SpecGetStopFlagsMultiSeqs(const paddle::Tensor& accept_tokens,
                                const paddle::Tensor& accept_num,
                                const paddle::Tensor& pre_ids,
@@ -794,7 +789,7 @@ void SpeculateVerify(const paddle::Tensor& sampled_token_ids,
                      const paddle::Tensor& max_dec_len,
                      const paddle::Tensor& end_tokens,
                      const paddle::Tensor& is_block_step,
-                     const paddle::Tensor& output_cum_offsets,
+                     const paddle::Tensor& cu_seqlens_q_output,
                      const paddle::Tensor& actual_candidate_len,
                      const paddle::Tensor& actual_draft_token_nums,
                      const paddle::Tensor& topp,
@@ -922,7 +917,7 @@ void DraftModelUpdate(const paddle::Tensor& inter_next_tokens,
                       const paddle::Tensor& seq_lens_encoder,
                       const paddle::Tensor& seq_lens_decoder,
                       const paddle::Tensor& step_idx,
-                      const paddle::Tensor& output_cum_offsets,
+                      const paddle::Tensor& cu_seqlens_q_output,
                       const paddle::Tensor& stop_flags,
                       const paddle::Tensor& not_need_stop,
                       const paddle::Tensor& max_dec_len,
@@ -1102,19 +1097,20 @@ std::vector<paddle::Tensor> FusedNeoxRopeEmbedding(
 
 std::vector<paddle::Tensor> GeluTanh(paddle::Tensor& input);
 
-void ReasoningPhaseTokenConstraint(const paddle::Tensor& logits,
-                                   const paddle::Tensor& pre_ids,
-                                   const paddle::Tensor& stop_flags,
-                                   const paddle::Tensor& seq_lens_this_time,
-                                   const paddle::Tensor& seq_lens_encoder,
-                                   const paddle::Tensor& step_idx,
-                                   const paddle::Tensor& allowed_tokens,
-                                   const paddle::Tensor& reasoning_status,
-                                   const paddle::Tensor& output_padding_offset,
-                                   const paddle::Tensor& output_cum_offsets,
-                                   const paddle::Tensor& enable_thinking,
-                                   int64_t think_end_id,
-                                   int64_t line_break_id);
+void ReasoningPhaseTokenConstraint(
+    const paddle::Tensor& logits,
+    const paddle::Tensor& pre_ids,
+    const paddle::Tensor& stop_flags,
+    const paddle::Tensor& seq_lens_this_time,
+    const paddle::Tensor& seq_lens_encoder,
+    const paddle::Tensor& step_idx,
+    const paddle::Tensor& allowed_tokens,
+    const paddle::Tensor& reasoning_status,
+    const paddle::Tensor& batch_id_per_token_output,
+    const paddle::Tensor& cu_seqlens_q_output,
+    const paddle::Tensor& enable_thinking,
+    int64_t think_end_id,
+    int64_t line_break_id);
 
 std::vector<paddle::Tensor> get_attn_mask_q(
     const paddle::Tensor& cu_seqlens_q,
@@ -1612,10 +1608,6 @@ PYBIND11_MODULE(fastdeploy_ops, m) {
         &SpeculateGetSeqLensOutput,
         "speculate_get_seq_lens_output function");
 
-  m.def("speculate_get_output_padding_offset",
-        &SpeculateGetOutputPaddingOffset,
-        "speculate_get_output_padding_offset function");
-
   m.def("speculate_get_token_penalty_multi_scores",
         &SpecTokenPenaltyMultiScores,
         "speculate_get_token_penalty_multi_scores function");
 
@@ -125,19 +125,17 @@ __global__ void apply_token_enforce_generation_scores_kernel(
     T* __restrict__ logits_dst,                  // logits (output)
     const int64_t* __restrict__ allowed_tokens,  // [allowed_len]
     const int32_t* __restrict__ reasoning_status,
-    const int* output_padding_offset,
-    const int* output_cum_offsets,
+    const int* batch_id_per_token_output,
+    const int* cu_seqlens_q_output,
     const int max_bsz,
     const int max_seq_len,
     const int vocab_size,
     const int allowed_tokens_len) {
   int token_idx = blockIdx.x;
   int tid = threadIdx.x;
 
-  const int bs_idx =
-      (token_idx + output_padding_offset[token_idx]) / max_seq_len;
-  const int query_start_token_idx =
-      bs_idx * max_seq_len - output_cum_offsets[bs_idx];
+  const int bs_idx = batch_id_per_token_output[token_idx];
+  const int query_start_token_idx = cu_seqlens_q_output[bs_idx];
   bool is_batch_first_token = (token_idx == query_start_token_idx);
 
   if (allowed_tokens_len == 0 || !is_batch_first_token) {
@@ -177,8 +175,8 @@ void reasoning_phase_token_constraint(
     const paddle::Tensor& step_idx,
     const paddle::Tensor& allowed_tokens,
     const paddle::Tensor& reasoning_status,
-    const paddle::Tensor& output_padding_offset,
-    const paddle::Tensor& output_cum_offsets,
+    const paddle::Tensor& batch_id_per_token_output,
+    const paddle::Tensor& cu_seqlens_q_output,
     const paddle::Tensor& enable_thinking,
     int64_t think_end_id,
     int64_t line_break_id) {
@@ -233,27 +231,28 @@ void reasoning_phase_token_constraint(
       reinterpret_cast<DataType_*>(const_cast<data_t*>(logits.data<data_t>())),
       allowed_tokens.data<int64_t>(),
       reasoning_status.data<int32_t>(),
-      output_padding_offset.data<int32_t>(),
-      output_cum_offsets.data<int32_t>(),
+      batch_id_per_token_output.data<int32_t>(),
+      cu_seqlens_q_output.data<int32_t>(),
       bs,
       max_seq_len,
       vocab_size,
       allowed_tokens_len);
 }
 
-void ReasoningPhaseTokenConstraint(const paddle::Tensor& logits,
-                                   const paddle::Tensor& pre_ids,
-                                   const paddle::Tensor& stop_flags,
-                                   const paddle::Tensor& seq_lens_this_time,
-                                   const paddle::Tensor& seq_lens_encoder,
-                                   const paddle::Tensor& step_idx,
-                                   const paddle::Tensor& allowed_tokens,
-                                   const paddle::Tensor& reasoning_status,
-                                   const paddle::Tensor& output_padding_offset,
-                                   const paddle::Tensor& output_cum_offsets,
-                                   const paddle::Tensor& enable_thinking,
-                                   int64_t think_end_id,
-                                   int64_t line_break_id) {
+void ReasoningPhaseTokenConstraint(
+    const paddle::Tensor& logits,
+    const paddle::Tensor& pre_ids,
+    const paddle::Tensor& stop_flags,
+    const paddle::Tensor& seq_lens_this_time,
+    const paddle::Tensor& seq_lens_encoder,
+    const paddle::Tensor& step_idx,
+    const paddle::Tensor& allowed_tokens,
+    const paddle::Tensor& reasoning_status,
+    const paddle::Tensor& batch_id_per_token_output,
+    const paddle::Tensor& cu_seqlens_q_output,
+    const paddle::Tensor& enable_thinking,
+    int64_t think_end_id,
+    int64_t line_break_id) {
   switch (logits.type()) {
     case paddle::DataType::FLOAT16:
       return reasoning_phase_token_constraint<paddle::DataType::FLOAT16>(
@@ -265,8 +264,8 @@ void ReasoningPhaseTokenConstraint(const paddle::Tensor& logits,
           step_idx,
           allowed_tokens,
           reasoning_status,
-          output_padding_offset,
-          output_cum_offsets,
+          batch_id_per_token_output,
+          cu_seqlens_q_output,
           enable_thinking,
           think_end_id,
           line_break_id);
@@ -280,8 +279,8 @@ void ReasoningPhaseTokenConstraint(const paddle::Tensor& logits,
           step_idx,
           allowed_tokens,
           reasoning_status,
-          output_padding_offset,
-          output_cum_offsets,
+          batch_id_per_token_output,
+          cu_seqlens_q_output,
           enable_thinking,
           think_end_id,
           line_break_id);
@@ -295,8 +294,8 @@ void ReasoningPhaseTokenConstraint(const paddle::Tensor& logits,
           step_idx,
           allowed_tokens,
           reasoning_status,
-          output_padding_offset,
-          output_cum_offsets,
+          batch_id_per_token_output,
+          cu_seqlens_q_output,
           enable_thinking,
           think_end_id,
           line_break_id);
@@ -317,8 +316,8 @@ PD_BUILD_STATIC_OP(reasoning_phase_token_constraint)
              "step_idx",
              "allowed_tokens",
              "reasoning_status",
-             "output_padding_offset",
-             "output_cum_offsets",
+             "batch_id_per_token_output",
+             "cu_seqlens_q_output",
              "enable_thinking"})
     .Outputs({"logits_out", "reasoning_status_out"})
     .Attrs({"think_end_id: int64_t", "line_break_id: int64_t"})