fix

wangzaijun · wangzaijun · commit 8e2506600d6a · 2025-12-17T06:28:39.000Z
diff --git a/lightllm/common/basemodel/prefill_cuda_graph.py b/lightllm/common/basemodel/prefill_cuda_graph.py
@@ -31,7 +31,7 @@ def __init__(self, decode_cuda_graph: CudaGraph):
 
         graph_handle_token_nums = []
         for i in range(2048):
-            token_num = int(2 ** i)
+            token_num = int(2 ** (2 * i))
             if token_num < self.max_handle_token_num:
                 graph_handle_token_nums.append(token_num)
             else: