[Misc] skip target model mm emb in draft proposal step when draft is text-only (vllm-project#33437)

kkt-cohere · web-flow · commit 0b225fb7b22f · 2026-02-01T21:13:35.000Z
Signed-off-by: kkt-cohere &lt;komal@cohere.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -4070,7 +4070,7 @@ def propose_draft_token_ids(
                     else:
                         target_hidden_states = hidden_states[:total_num_tokens]
 
-            if self.supports_mm_inputs:
+            if self.supports_mm_inputs and self.drafter.supports_mm_inputs:
                 mm_embed_inputs = self._gather_mm_embeddings(
                     scheduler_output,
                     shift_computed_tokens=1,