[None][feat] Add TRTLLM_KVCACHE_AWARE_ROUTER_HASH_TOKENS_PER_BLOCK env var

reasonsolo · reasonsolo · commit d5c1d1d0e7e1 · 2026-03-20T17:54:59.000+08:00
Allow overriding the KvCacheAwareRouter tokens_per_block via environment
variable. When set, the env var takes precedence over the constructor
default (32) and the YAML config value. The effective value is logged
at router initialization.

Signed-off-by: Lizhi Zhou &lt;1432185+reasonsolo@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/serve/router.py b/tensorrt_llm/serve/router.py
@@ -1,5 +1,6 @@
 import asyncio
 import heapq
+import os
 from abc import ABC, abstractmethod
 from typing import Awaitable, Callable, Dict, Iterable, List, Optional, Union
 
@@ -626,7 +627,14 @@ def __init__(self,
         self._tokenizers = {}
         # TODO: use max_num_tokens? per server?
         self._max_batch_size = max_batch_size
+        env_tokens_per_block = os.environ.get(
+            "TRTLLM_KVCACHE_AWARE_ROUTER_HASH_TOKENS_PER_BLOCK")
+        if env_tokens_per_block is not None:
+            tokens_per_block = int(env_tokens_per_block)
         self._tokens_per_block = tokens_per_block
+        logger.info(
+            f"KvCacheAwareRouter: tokens_per_block={self._tokens_per_block}"
+        )
 
     def _get_tokenizer(self, model: str):
         if model not in self._tokenizers: