perf: perf script change for qwen30b-a3b (#1526)

youngeunkwon0405 · web-flow · commit 1c371a9b34a7 · 2025-11-19T16:22:37.000-08:00
Signed-off-by: Youngeun Kwon &lt;youngeunk@nvidia.com&gt;
diff --git a/examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g-async-1off.yaml b/examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g-async-1off.yaml
@@ -10,10 +10,10 @@ checkpointing:
   checkpoint_dir: results/grpo-qwen3-30ba3b-4n8g-async-1off
 policy:
   megatron_cfg:
-    tensor_model_parallel_size: 2
-    pipeline_model_parallel_size: 1
+    tensor_model_parallel_size: 1
+    pipeline_model_parallel_size: 2
     expert_model_parallel_size: 8
-    sequence_parallel: true
+    sequence_parallel: false
   generation:
     colocated:
       enabled: false
@@ -22,7 +22,7 @@ policy:
         gpus_per_node: 8
     vllm_cfg:
       async_engine: true
-      tensor_parallel_size: 4
+      tensor_parallel_size: 2
       gpu_memory_utilization: 0.8
 logger:
   log_dir: logs/grpo-qwen3-30ba3b-4n8g-2T2G-async-1off
diff --git a/examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g.yaml b/examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g.yaml
@@ -17,10 +17,10 @@ policy:
   megatron_cfg:
     enabled: true
     empty_unused_memory_level: 1
-    tensor_model_parallel_size: 2
+    tensor_model_parallel_size: 1
     pipeline_model_parallel_size: 1
     expert_model_parallel_size: 8
-    sequence_parallel: true
+    sequence_parallel: false
     optimizer:
       lr: 3.0e-07
       min_lr: 3.0e-08