NVIDIA
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 1 addition & 1 deletion b/‎.pre-commit-config.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/features/torch_compile_and_piecewise_cuda_graph.md‎
Lines changed: 363 additions & 0 deletions b/‎docs/source/features/torch_compile_and_piecewise_cuda_graph.md‎
Lines changed: 363 additions & 0 deletions
diff --git a/‎docs/source/index.rst‎
Lines changed: 1 addition & 0 deletions b/‎docs/source/index.rst‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/source/media/current_model_definition_ds.svg‎
Lines changed: 4 additions & 0 deletions b/‎docs/source/media/current_model_definition_ds.svg‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎docs/source/media/custom_backend_overview.svg‎
Lines changed: 4 additions & 0 deletions b/‎docs/source/media/custom_backend_overview.svg‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎docs/source/media/piecewise_runner.svg‎
Lines changed: 4 additions & 0 deletions b/‎docs/source/media/piecewise_runner.svg‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎tensorrt_llm/llmapi/llm_args.py‎
Lines changed: 16 additions & 0 deletions b/‎tensorrt_llm/llmapi/llm_args.py‎
Lines changed: 16 additions & 0 deletions
@@ -66,7 +66,7 @@ repos:
         additional_dependencies:
         - tomli
         # add ignore words list
-        args: ["-L", "Mor,ans,thirdparty", "--skip", "ATTRIBUTIONS-*.md", "--skip", "security_scanning/*"]
+        args: ["-L", "Mor,ans,thirdparty", "--skip", "ATTRIBUTIONS-*.md,*.svg", "--skip", "security_scanning/*"]
 -   repo: https://github.com/astral-sh/ruff-pre-commit
     rev: v0.9.4
     hooks:
 
@@ -75,6 +75,7 @@ Welcome to TensorRT LLM's Documentation!
    features/checkpoint-loading.md
    features/auto_deploy/auto-deploy.md
    features/ray-orchestrator.md
+   features/torch_compile_and_piecewise_cuda_graph.md
 
 .. toctree::
    :maxdepth: 2
 
@@ -2400,6 +2400,10 @@ def validate_torch_compile_max_num_streams(cls, v):
                 "torch_compile_config.max_num_streams must be >= 1")
         return v
 
+    @staticmethod
+    def _generate_capture_num_tokens() -> List[int]:
+        return [2**i for i in range(8)] + [i for i in range(256, 3073, 256)]
+
 
 class TorchLlmArgs(BaseLlmArgs):
     # Just a dummy BuildConfig to allow code reuse with the TrtLlmArgs
@@ -2715,6 +2719,18 @@ def validate_cuda_graph_config(self) -> 'TorchLlmArgs':
 
         return self
 
+    @model_validator(mode='after')
+    def validate_torch_compile_config(self) -> 'TorchLlmArgs':
+        if self.torch_compile_config is None:
+            return self
+
+        config = self.torch_compile_config
+        if config.enable_piecewise_cuda_graph:
+            if config.capture_num_tokens is None:
+                config.capture_num_tokens = TorchCompileConfig._generate_capture_num_tokens(
+                )
+        return self
+
     @model_validator(mode='after')
     def sync_quant_config_with_kv_cache_config_dtype(self) -> 'TorchLlmArgs':
         if self.kv_cache_config is None: