vllm-project
diff --git a/‎vllm_ascend/spec_decode/__init__.py b/‎vllm_ascend/spec_decode/__init__.py
diff --git a/‎vllm_ascend/worker/eagle_proposer_v1.py renamed to ‎vllm_ascend/spec_decode/eagle_proposer.py
Lines changed: 222 additions & 134 deletions b/‎vllm_ascend/worker/eagle_proposer_v1.py renamed to ‎vllm_ascend/spec_decode/eagle_proposer.py
Lines changed: 222 additions & 134 deletions
diff --git a/‎vllm_ascend/spec_decode/interface.py
Lines changed: 51 additions & 0 deletions b/‎vllm_ascend/spec_decode/interface.py
Lines changed: 51 additions & 0 deletions
@@ -0,0 +1,51 @@
+from typing import Optional, Union
+
+import torch
+from vllm.config import VllmConfig
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
+
+from vllm_ascend.attention.attention_v1 import AscendMetadata
+from vllm_ascend.attention.attention_v1_torchair import AscendTorchairMetadata
+from vllm_ascend.attention.mla_v1 import AscendMLAMetadata
+from vllm_ascend.worker.model_runner_v1 import NPUModelRunner
+
+
+class Proposer:
+
+    def __init__(self,
+                 vllm_config: VllmConfig,
+                 device: torch.device = None,
+                 runner: NPUModelRunner = None):
+        pass
+
+    def load_model(self, model):
+        """Called by load_model in model_runner"""
+        raise NotImplementedError
+
+    @torch.inference_mode()
+    def dummy_run(self,
+                  num_tokens: int,
+                  with_prefill: bool = None,
+                  skip_attn: bool = None,
+                  num_reqs: int = None,
+                  num_tokens_across_dp: Optional[torch.Tensor] = None):
+        """Called by dummy_run in modle_runner"""
+        raise NotImplementedError
+
+    def generate_token_ids(self,
+                           valid_sampled_token_ids: list[list[int]],
+                           sampling_metadata: SamplingMetadata = None,
+                           scheduler_output: SchedulerOutput = None,
+                           spec_decode_metadata: SpecDecodeMetadata = None,
+                           positions: torch.Tensor = None,
+                           num_scheduled_tokens: int = None,
+                           hidden_states: torch.Tensor = None,
+                           attn_metadata: Union[AscendMetadata,
+                                                AscendMLAMetadata,
+                                                AscendTorchairMetadata] = None,
+                           aux_hidden_states: torch.Tensor = None,
+                           attn_metadata_builder=None):
+        """Called by execute_model in model_runner"""
+        raise NotImplementedError