fix rebuild_padding and step_paddle

asinkLuno · asinkLuno · commit a48c978c6d3a · 2025-08-22T10:04:04.000+08:00
diff --git a/fastdeploy/model_executor/ops/npu/rebuild_padding.py b/fastdeploy/model_executor/ops/npu/rebuild_padding.py
@@ -12,7 +12,9 @@ def rebuild_padding(
     padding_offset,
     max_model_len
 ):  
-    model_output=paddle.cast(model_output, paddle.float16)
+    # Cast to float16 for NPU kernel as required, then cast back to original dtype
+    original_dtype = model_output.dtype
+    model_output = paddle.cast(model_output, paddle.float16)
     
     out = core.eager._run_custom_op(
         "rebuild_padding_v2",
@@ -23,5 +25,8 @@ def rebuild_padding(
         max_model_len
     )[0]
     
+    # Cast back to original dtype to maintain consistency
+    out = paddle.cast(out, original_dtype)
+    
 
     return out
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
@@ -307,12 +307,14 @@ def post_process_normal(
     #    In the future, we will abandon this approach.
     if not skip_save_output:
         if sampler_output.logprobs_tensors is None:
+            print("<><><><><>before save_output")
             save_output(
                 sampler_output.sampled_token_ids,
                 model_output.not_need_stop,
                 model_output.mp_rank,
                 save_each_rank,  # save_each_rank
             )
+            print("<><><><><>after save_output")
         else:
             save_output_topk(
                 sampler_output.sampled_token_ids,
@@ -322,6 +324,7 @@ def post_process_normal(
                 model_output.not_need_stop,
                 model_output.mp_rank,
             )
+    print("<><><><><>end of this")
 
 
 def post_process_specualate(model_output, save_each_rank: bool = False, skip_save_output: bool = False):
@@ -378,7 +381,9 @@ def post_process(
     if speculative_decoding:
         post_process_specualate(model_output, save_each_rank, skip_save_output)
     else:
+        print("<><><><><>before post_process_normal")
         post_process_normal(sampler_output, model_output, share_inputs, block_size, save_each_rank, skip_save_output)
+        print("<><><><><>after post_process_normal")
 
 
 def step_cuda(
diff --git a/fastdeploy/worker/npu_model_runner.py b/fastdeploy/worker/npu_model_runner.py
@@ -814,22 +814,39 @@ class at the server level, which is too granular for ModelRunner.
             accept_num=None,
         )
         # Create proper SamplerOutput object from the tensor
-        print("<><><><><>before_sampler_output")
         sampler_output = SamplerOutput(
             sampled_token_ids=next_tokens,
             logprobs_tensors=None,
         )
         
-        print("<><><><><>before_post_process")
         post_process(sampler_output=sampler_output, model_output=model_output_data, share_inputs=self.share_inputs)
-        print("<><><><><>after_post_process")
 
         # 7. Updata 'infer_seed' and step_paddle()
         self.share_inputs["infer_seed"].add_(self.infer_seed_increment)
         self.share_inputs["infer_seed"][:] %= self.MAX_INFER_SEED
-        print("<><><><><>before_step_paddle")
         step_paddle(
-            self.share_inputs,
+            self.share_inputs["stop_flags"],
+            self.share_inputs["seq_lens_this_time"],
+            self.share_inputs["ori_seq_lens_encoder"],
+            self.share_inputs["seq_lens_encoder"],
+            self.share_inputs["seq_lens_decoder"],
+            self.share_inputs["block_tables"],
+            self.share_inputs["encoder_block_lens"],
+            self.share_inputs["is_block_step"],
+            self.share_inputs["step_block_list"],
+            self.share_inputs["step_lens"],
+            self.share_inputs["recover_block_list"],
+            self.share_inputs["recover_lens"],
+            self.share_inputs["need_block_list"],
+            self.share_inputs["need_block_len"],
+            self.share_inputs["used_list_len"],
+            self.share_inputs["free_list"],
+            self.share_inputs["free_list_len"],
+            self.share_inputs["input_ids"],
+            self.share_inputs["pre_ids"],
+            self.share_inputs["step_idx"],
+            self.share_inputs["next_tokens"],
+            self.share_inputs["first_token_ids"],
             self.cache_config.block_size,
             self.cache_config.enc_dec_block_num,
         )