fix bug for pd step signal (#3230)

rainyfly · web-flow · commit a4572a5e5d86 · 2025-08-06T10:41:52.000+08:00
diff --git a/fastdeploy/splitwise/internal_adapter_utils.py b/fastdeploy/splitwise/internal_adapter_utils.py
@@ -61,6 +61,7 @@ def _get_current_server_info(self):
             "max_batch_size": int(available_batch_size),
             "max_input_token_num": self.cfg.max_num_batched_tokens,
             "unhandled_request_num": self.engine.scheduler.get_unhandled_request_num(),
+            "available_batch": int(self.engine.resource_manager.available_batch()),
         }
         return server_info
 
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -1268,18 +1268,18 @@ class at the server level, which is too granular for ModelRunner.
             We plan to replace it with 'ModelForwardBatch'.
             intermediate_tensors:
         """
-        # 1. Prepare inputs of model and sampler.
-        skip_idx_list = self._get_skip_idx(model_forward_batch)
-        self._prepare_inputs()
-        self.sampler.pre_process(skip_idx_list)
-
         # NOTE(wufeisheng): If `not_need_stop`` is False, it means the current worker is in an idle state.
         # This logic is not used in TP (Tensor Parallelism) mode. However, in EP (Expert Parallelism) mode,
         # when there is data on other runner, the current runner is required to execute part of the model.
         if not self.not_need_stop():
             self._execute_empty_input()
             return None
 
+        # 1. Prepare inputs of model and sampler.
+        skip_idx_list = self._get_skip_idx(model_forward_batch)
+        self._prepare_inputs()
+        self.sampler.pre_process(skip_idx_list)
+
         # 2. Padding inputs for cuda graph
         self.padding_cudagraph_inputs()
 

Original file line number	Diff line number	Diff line change
`@@ -61,6 +61,7 @@ def _get_current_server_info(self):`
`61`	`61`	`"max_batch_size": int(available_batch_size),`
`62`	`62`	`"max_input_token_num": self.cfg.max_num_batched_tokens,`
`63`	`63`	`"unhandled_request_num": self.engine.scheduler.get_unhandled_request_num(),`
	`64`	`+ "available_batch": int(self.engine.resource_manager.available_batch()),`
`64`	`65`	`}`
`65`	`66`	`return server_info`
`66`	`67`