Delayed approach v0.2

diegocastanibm · diegocastanibm · commit 3ee43332d14c · 2025-08-15T11:43:22.000-04:00
Signed-off-by: Diego-Castan &lt;diego.castan@ibm.com&gt;
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
@@ -402,8 +402,8 @@ def compile_cuda_graph(input_size: int):
             next_comp_set = warmup_sizes_set.difference(self._token_compiled_cudagraphs)
             if len(next_comp_set) != 0:
                 next_comp = list(next_comp_set)
-            self._token_compiled_cudagraphs.add(next_comp[0])
-            compile_cuda_graph(next_comp[0])
+                self._token_compiled_cudagraphs.add(next_comp[0])
+                compile_cuda_graph(next_comp[0])
 
         output = self.model_runner.execute_model(scheduler_output,
                                                  intermediate_tensors)