update megatron shell (#4773)

Jintao-Huang · web-flow · commit 5712d6af50c6 · 2025-06-30T19:33:00.000+08:00
diff --git a/docs/source/BestPractices/Qwen3最佳实践.md b/docs/source/BestPractices/Qwen3最佳实践.md
@@ -354,7 +354,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen3-30B-A3B-Base \
     --eval_interval 200 \
diff --git a/docs/source/Instruction/Megatron-SWIFT训练.md b/docs/source/Instruction/Megatron-SWIFT训练.md
@@ -69,7 +69,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 10 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --max_epochs 1 \
     --save megatron_output/Qwen2.5-7B-Instruct \
diff --git a/docs/source_en/BestPractices/Qwen3-Best-Practice.md b/docs/source_en/BestPractices/Qwen3-Best-Practice.md
@@ -358,7 +358,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen3-30B-A3B-Base \
     --eval_interval 200 \
diff --git a/docs/source_en/Instruction/Megatron-SWIFT-Training.md b/docs/source_en/Instruction/Megatron-SWIFT-Training.md
@@ -70,7 +70,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 10 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --max_epochs 1 \
     --save megatron_output/Qwen2.5-7B-Instruct \
diff --git a/examples/train/megatron/base_to_chat.sh b/examples/train/megatron/base_to_chat.sh
@@ -14,7 +14,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen2.5-14B \
     --eval_interval 200 \
diff --git a/examples/train/megatron/dense/72b_offload.sh b/examples/train/megatron/dense/72b_offload.sh
@@ -18,7 +18,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen2.5-72B-Instruct \
     --eval_interval 500 \
diff --git a/examples/train/megatron/dense/qwen3_32b.sh b/examples/train/megatron/dense/qwen3_32b.sh
@@ -18,7 +18,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen3-32B \
     --eval_interval 500 \
diff --git a/examples/train/megatron/long_text.sh b/examples/train/megatron/long_text.sh
@@ -19,7 +19,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen2.5-7B \
     --eval_interval 200 \
diff --git a/examples/train/megatron/moe/qwen3_moe.sh b/examples/train/megatron/moe/qwen3_moe.sh
@@ -18,12 +18,11 @@ megatron sft \
     --recompute_granularity full \
     --recompute_method uniform \
     --recompute_num_layers 1 \
-    --train_iters 2000 \
-    --eval_iters 50 \
+    --max_epochs 3 \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen3-30B-A3B-Base \
     --eval_interval 200 \
diff --git a/examples/train/megatron/moe/qwen3_moe_offload.sh b/examples/train/megatron/moe/qwen3_moe_offload.sh
@@ -0,0 +1,34 @@
+# 28s/it; 4 * 75GiB
+NPROC_PER_NODE=4 \
+CUDA_VISIBLE_DEVICES=0,1,2,3 \
+megatron sft \
+    --load Qwen3-30B-A3B-Base-mcore \
+    --dataset 'liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT' \
+    --expert_model_parallel_size 4 \
+    --moe_grouped_gemm true \
+    --moe_shared_expert_overlap true \
+    --moe_aux_loss_coeff 0.01 \
+    --micro_batch_size 1 \
+    --global_batch_size 16 \
+    --packing true \
+    --recompute_granularity full \
+    --recompute_method uniform \
+    --recompute_num_layers 1 \
+    --finetune true \
+    --cross_entropy_loss_fusion true \
+    --lr 1e-5 \
+    --lr_warmup_fraction 0.05 \
+    --min_lr 1e-6 \
+    --save megatron_output/Qwen3-30B-A3B-Base \
+    --eval_interval 200 \
+    --save_interval 200 \
+    --max_length 8192 \
+    --max_epochs 3 \
+    --num_workers 8 \
+    --dataset_num_proc 8 \
+    --no_save_optim true \
+    --no_save_rng true \
+    --sequence_parallel true \
+    --optimizer_cpu_offload true \
+    --use_precision_aware_optimizer true \
+    --attention_backend flash
diff --git a/examples/train/megatron/multi-node/node1.sh b/examples/train/megatron/multi-node/node1.sh
@@ -20,7 +20,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen2.5-14B \
     --eval_interval 200 \
diff --git a/examples/train/megatron/multi-node/node2.sh b/examples/train/megatron/multi-node/node2.sh
@@ -17,7 +17,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen2.5-14B \
     --eval_interval 200 \
diff --git a/examples/train/megatron/rlhf/dpo/moe.sh b/examples/train/megatron/rlhf/dpo/moe.sh
@@ -19,7 +19,7 @@ megatron rlhf \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 100 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --save megatron_output/Qwen1.5-MoE-A2.7B \
     --eval_interval 200 \
diff --git a/examples/train/megatron/sft.sh b/examples/train/megatron/sft.sh
@@ -16,7 +16,7 @@ megatron sft \
     --finetune true \
     --cross_entropy_loss_fusion true \
     --lr 1e-5 \
-    --lr_warmup_iters 10 \
+    --lr_warmup_fraction 0.05 \
     --min_lr 1e-6 \
     --max_epochs 1 \
     --save megatron_output/Qwen2.5-7B-Instruct \
diff --git a/examples/train/multimodal/video.sh b/examples/train/multimodal/video.sh
@@ -1,13 +1,13 @@
-# 4*80GB
+# 2*24GB
 # You can refer to `https://github.com/QwenLM/Qwen2.5-VL` for the meaning of the `VIDEO_MAX_PIXELS` parameter.
-nproc_per_node=4
+nproc_per_node=2
 
-CUDA_VISIBLE_DEVICES=0,1,2,3 \
+CUDA_VISIBLE_DEVICES=0,1 \
 NPROC_PER_NODE=$nproc_per_node \
 VIDEO_MAX_PIXELS=50176 \
 FPS_MAX_FRAMES=12 \
 swift sft \
-    --model Qwen/QVQ-72B-Preview \
+    --model Qwen/Qwen2.5-VL-7B-Instruct \
     --dataset swift/VideoChatGPT:all \
     --train_type lora \
     --torch_dtype bfloat16 \
@@ -28,4 +28,4 @@ swift sft \
     --output_dir output \
     --warmup_ratio 0.05 \
     --dataloader_num_workers 4 \
-    --deepspeed zero3
+    --deepspeed zero2
diff --git a/swift/megatron/argument/megatron_args.py b/swift/megatron/argument/megatron_args.py
@@ -60,7 +60,7 @@ class MegatronArguments(ExtraMegatronArguments):
     no_masked_softmax_fusion: bool = False
     no_bias_dropout_fusion: bool = False
     no_bias_swiglu_fusion: bool = False
-    no_rope_fusion: bool = False
+    no_rope_fusion: Optional[bool] = None
     no_gradient_accumulation_fusion: bool = False
     cross_entropy_loss_fusion: bool = False
     cross_entropy_fusion_impl: Literal['native', 'te'] = 'native'
@@ -323,10 +323,17 @@ def __post_init__(self):
 
         self.tensorboard_dir = to_abspath(self.tensorboard_dir)
         self.extra_megatron_kwargs = ModelArguments.parse_to_dict(self.extra_megatron_kwargs)
-        if self.multi_latent_attention and not self.no_rope_fusion:
+        self._init_no_rope_fusion()
+
+    def _init_no_rope_fusion(self):
+        if self.no_rope_fusion is not None:
+            return
+        if self.multi_latent_attention or self.rotary_interleaved:
             # Upgrading transformer_engine requires checking here.
             self.no_rope_fusion = True
-            logger.info(f'Due to enabling multi_latent_attention, set args.no_rope_fusion to {self.no_rope_fusion}.')
+        else:
+            self.no_rope_fusion = False
+        logger.info(f'Setting args.no_rope_fusion: {self.no_rope_fusion}.')
 
     def _args_to_argv(self) -> Tuple[List[Any], Dict[str, Any]]:
         new_args = []
diff --git a/swift/megatron/argument/train_args.py b/swift/megatron/argument/train_args.py
@@ -39,6 +39,7 @@ def _init_save(self):
             os.makedirs(self.save, exist_ok=True)
 
     def __post_init__(self):
+        self.train_type = 'full'  # only support full
         self.sequence_parallel_size = self.context_parallel_size
         self.load = to_abspath(self.load, check_path_exist=True)
         BaseArguments.__post_init__(self)
diff --git a/swift/trainers/rlhf_trainer/gkd_trainer.py b/swift/trainers/rlhf_trainer/gkd_trainer.py
@@ -12,7 +12,7 @@
 from trl import SFTTrainer as HFSFTTrainer
 from trl.models.utils import prepare_deepspeed
 
-from swift.utils import empty_cache, unwrap_model_for_generation
+from swift.utils import unwrap_model_for_generation
 from ..mixin import SwiftMixin
 from .rlhf_mixin import RLHFTrainerMixin