vllm-project · vllm-bot · Aug 12, 2025 · Aug 11, 2025 · Aug 12, 2025 · Aug 12, 2025
@@ -1165,8 +1165,9 @@ def _verify_quantization(self) -> None:
                     "non-quantized models.", self.quantization)
 
     def _verify_cuda_graph(self) -> None:
-        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
-                                          self.max_model_len)
+        if not self.is_encoder_decoder:
+            self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
+                                              self.max_model_len)
-        if not self.is_encoder_decoder:
-            self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
-                                              self.max_model_len)
+        max_len = self.max_model_len
+        if self.is_encoder_decoder:
+            max_len = max(
+                max_len, getattr(self.hf_config, "max_source_positions", 0))
+        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture, max_len)
-        if not self.is_encoder_decoder:
-            self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
-                                              self.max_model_len)
+        max_len = self.max_model_len
+        if self.is_encoder_decoder:
+            max_len = max(
+                max_len, getattr(self.hf_config, "max_source_positions", 0))
+        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture, max_len)
         # CUDAGraph capture not supported for enc-dec models and mllama on ROCm
         ROCM_UNSUPPORTED_MODELS = ['mllama']
         unsupported_rocm = (self.hf_config.model_type