restrict max_num_tokens in disagg mtp config

ruodil · ruodil · commit e03e32858956 · 2026-01-06T07:57:29.000Z
Signed-off-by: Ruodi Lu &lt;ruodil@users.noreply.github.com&gt;
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: false
     pipeline_parallel_size: 4
     max_batch_size: 1
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 1 * (3 + 1) = 4
+    max_num_tokens: 4
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 1
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 1 * (3 + 1) = 4
+    max_num_tokens: 4
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 4
-    max_num_tokens: 128
+    # mtp_size=2 ⇒ max_num_tokens = 4 * (2 + 1) = 12
+    max_num_tokens: 12
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: false
     pipeline_parallel_size: 1
     max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=2 ⇒ max_num_tokens = 8 * (2 + 1) = 24
+    max_num_tokens: 24
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 8 * (3 + 1) = 32
+    max_num_tokens: 32
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 16
-    max_num_tokens: 128
+    # mtp_size=1 ⇒ max_num_tokens = 16 * (1 + 1) = 32
+    max_num_tokens: 32
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 32
-    max_num_tokens: 128
+    # mtp_size=1 ⇒ max_num_tokens = 32 * (1 + 1) = 64
+    max_num_tokens: 64
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 4
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 4 * (3 + 1) = 16
+    max_num_tokens: 16
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true
diff --git a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml
@@ -49,7 +49,8 @@ worker_config:
     enable_attention_dp: true
     pipeline_parallel_size: 1
     max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 8 * (3 + 1) = 32
+    max_num_tokens: 32
     max_seq_len: 139296
     cuda_graph_config:
       enable_padding: true