add --kt-numa-nodes CLI parameter for explicit NUMA node mapping

ErvinXie · ErvinXie · commit 1b4478a7cebd · 2026-03-18T22:00:19.000+08:00
Add --kt-numa-nodes parameter to ServerArgs and thread it through KTConfig to KTMoEWrapper. This allows users to specify which NUMA node IDs to bind to, enabling multi-instance deployment on different NUMA nodes without external numactl workarounds. Usage: --kt-threadpool-count 1 --kt-numa-nodes 1 (binds to NUMA node 1 instead of defaulting to node 0) Companion to kvcache-ai/ktransformers#1891
diff --git a/python/sglang/srt/layers/moe/kt_ep_wrapper.py b/python/sglang/srt/layers/moe/kt_ep_wrapper.py
@@ -82,6 +82,7 @@ class KTConfig:
     num_layers: Optional[int] = None
     gpu_prefill_token_threshold: Optional[int] = None
     kt_enable_dynamic_expert_update: bool = False
+    numa_nodes: Optional[List[int]] = None
 
 
 _SHARED_FULL_CONTEXT = None
@@ -1667,6 +1668,7 @@ def create_kt_config_from_server_args(
         num_layers=num_layers,
         gpu_prefill_token_threshold=server_args.kt_gpu_prefill_token_threshold,
         kt_enable_dynamic_expert_update=server_args.kt_enable_dynamic_expert_update,
+        numa_nodes=[int(x) for x in server_args.kt_numa_nodes.split(",")] if server_args.kt_numa_nodes else None,
     )
 
 
@@ -2105,6 +2107,7 @@ def create_weights(
                 chunked_prefill_size=self.kt_config.chunked_prefill_size,
                 method=self.kt_config.method,
                 max_deferred_experts_per_token=layer_max_deferred,
+                numa_nodes=self.kt_config.numa_nodes,
             )
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
diff --git a/python/sglang/srt/server_args.py b/python/sglang/srt/server_args.py
@@ -554,6 +554,7 @@ class ServerArgs:
     kt_method: Optional[str] = None
     kt_cpuinfer: Optional[int] = None
     kt_threadpool_count: Optional[int] = None
+    kt_numa_nodes: Optional[str] = None
     kt_num_gpu_experts: Optional[int] = None
     kt_gpu_experts_ratio: Optional[float] = None
     kt_max_deferred_experts_per_token: Optional[int] = None
@@ -4452,6 +4453,15 @@ def add_cli_args(parser: argparse.ArgumentParser):
             default=2,
             help="[ktransformers parameter] One-to-one with the number of NUMA nodes (one thread pool per NUMA).",
         )
+        parser.add_argument(
+            "--kt-numa-nodes",
+            type=str,
+            default=None,
+            help="[ktransformers parameter] Comma-separated list of NUMA node IDs for subpool mapping. "
+                 "E.g. \"1\" to bind to NUMA node 1, or \"2,3\" for nodes 2 and 3. "
+                 "Must match --kt-threadpool-count in length. "
+                 "If not set, defaults to sequential IDs [0, 1, ..., threadpool_count-1].",
+        )
         parser.add_argument(
             "--kt-num-gpu-experts",
             type=int,