vllm-project
diff --git a/‎vllm_ascend/spec_decode/__init__.py b/‎vllm_ascend/spec_decode/__init__.py
diff --git a/‎vllm_ascend/worker/eagle_proposer_v1.py renamed to ‎vllm_ascend/spec_decode/eagle_proposer.py
Lines changed: 222 additions & 134 deletions b/‎vllm_ascend/worker/eagle_proposer_v1.py renamed to ‎vllm_ascend/spec_decode/eagle_proposer.py
Lines changed: 222 additions & 134 deletions
diff --git a/‎vllm_ascend/spec_decode/interface.py
Lines changed: 50 additions & 0 deletions b/‎vllm_ascend/spec_decode/interface.py
Lines changed: 50 additions & 0 deletions
@@ -0,0 +1,50 @@
+from typing import Optional, Union
+
+import torch
+from vllm.config import VllmConfig
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.sample.metadata import SamplingMetadata
+from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
+
+from vllm_ascend.attention.attention_v1 import AscendMetadata
+from vllm_ascend.attention.attention_v1_torchair import AscendTorchairMetadata
+from vllm_ascend.attention.mla_v1 import AscendMLAMetadata
+
+
+class Proposer:
+
+    def __init__(self,
+                 vllm_config: VllmConfig,
+                 device: torch.device = None,
+                 runner=None):
+        pass
+
+    def load_model(self, model):
+        """Called by load_model in model_runner"""
+        raise NotImplementedError
+
+    @torch.inference_mode()
+    def dummy_run(self,
+                  num_tokens: int,
+                  with_prefill: bool = False,
+                  skip_attn: bool = False,
+                  num_reqs: int = 0,
+                  num_tokens_across_dp: Optional[torch.Tensor] = None):
+        """Called by dummy_run in modle_runner"""
+        raise NotImplementedError
+
+    def generate_token_ids(
+            self,
+            valid_sampled_token_ids: list[list[int]],
+            sampling_metadata: SamplingMetadata = None,
+            scheduler_output: SchedulerOutput = None,
+            spec_decode_metadata: SpecDecodeMetadata = None,
+            positions: torch.Tensor = None,
+            num_scheduled_tokens: int = 0,
+            hidden_states: torch.Tensor = None,
+            attn_metadata: Optional[Union[AscendMetadata, AscendMLAMetadata,
+                                          AscendTorchairMetadata]] = None,
+            aux_hidden_states: torch.Tensor = None,
+            attn_metadata_builder=None):
+        """Called by execute_model in model_runner"""
+        raise NotImplementedError