fix

Potabk · Potabk · commit ad7469dd1845 · 2026-03-24T20:02:56.000+08:00
Signed-off-by: wangli &lt;wangli858794774@gmail.com&gt;
diff --git a/vllm_ascend/spec_decode/eagle_proposer.py b/vllm_ascend/spec_decode/eagle_proposer.py
@@ -30,7 +30,7 @@
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.sample.metadata import SamplingMetadata
-from vllm.v1.spec_decode.eagle import SpecDecodeBaseProposer as VllmSpecDecodeBaseProposer
+from vllm.v1.spec_decode.eagle import EagleProposer
 from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
 from vllm.v1.spec_decode.utils import (
     PADDING_SLOT_ID,
@@ -85,11 +85,20 @@ def split_inputs_tp_to_sp(hidden_states, out):
     return out[:padded_num_tokens_per_rank]
 
 
-class SpecDecodeBaseProposer(VllmSpecDecodeBaseProposer):
+class SpecDecodeBaseProposer(EagleProposer):
     _runnable: ACLGraphWrapper | Callable
 
     def __init__(self, vllm_config: VllmConfig, device: torch.device, pass_hidden_states_to_model: bool, runner=None):
-        super().__init__(vllm_config, device, pass_hidden_states_to_model=pass_hidden_states_to_model, runner=runner)
+        super().__init__(vllm_config, device, runner)
+
+        # EagleProposer.__init__ hardcodes pass_hidden_states_to_model=True, so
+        # the derived values are incorrect when pass_hidden_states_to_model=False
+        # (e.g. AscendDraftModelProposer). Recompute them with the correct value.
+        self.pass_hidden_states_to_model = pass_hidden_states_to_model
+        self.net_num_new_slots_per_request = self.extra_slots_per_request - (
+            1 if self.pass_hidden_states_to_model else 0
+        )
+        self.needs_extra_input_slots = self.net_num_new_slots_per_request > 0
 
         self.use_async_scheduling = self.vllm_config.scheduler_config.async_scheduling
         self.decode_threshold = 1 + self.num_speculative_tokens