Delayed approach v0.1

diegocastanibm · diegocastanibm · commit 0664d854c64a · 2025-08-15T11:43:22.000-04:00
Signed-off-by: Diego-Castan &lt;diego.castan@ibm.com&gt;
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
@@ -399,9 +399,9 @@ def compile_cuda_graph(input_size: int):
                 scheduler_output.total_num_scheduled_tokens)
             compile_cuda_graph(scheduler_output.total_num_scheduled_tokens)
         else:
-            next_comp = list(
-                warmup_sizes_set.difference(
-                    self._token_compiled_cudagraphs))[0]
+            next_comp_set = warmup_sizes_set.difference(self._token_compiled_cudagraphs)
+            if len(next_comp_set) != 0:
+                next_comp = list(next_comp_set)[0] 
             self._token_compiled_cudagraphs.add(next_comp)
             compile_cuda_graph(next_comp)