add estimate max_steps (#2566)

Jonathans575 · web-flow · commit 0031d69720af · 2025-09-09T11:33:43.000+08:00
diff --git a/examples/config/ernie4_5/sft_argument_ernie4_5_0p3b.json b/examples/config/ernie4_5/sft_argument_ernie4_5_0p3b.json
@@ -6,23 +6,21 @@
     "eval_dataset_path": "./data/dev.json",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/ernie4_5_paddle_sft_ckpts",
     "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 4,
-    "per_device_eval_batch_size": 8,
+    "per_device_eval_batch_size": 1,
     "eval_accumulation_steps":16,
     "num_train_epochs": 1,
     "learning_rate": 3e-05,
     "warmup_steps": 10,
     "logging_steps": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "evaluation_strategy": "epoch",
     "save_strategy": "epoch",
-    "src_length": 1024,
-    "max_length": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
     "do_train": true,
diff --git a/examples/config/ernie4_5_moe/sft_argument_ernie4_5_21b_a3b.json b/examples/config/ernie4_5_moe/sft_argument_ernie4_5_21b_a3b.json
@@ -6,23 +6,21 @@
     "eval_dataset_path": "./data/dev.json",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/ernie4_5_paddle_sft_ckpts",
     "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 4,
-    "per_device_eval_batch_size": 8,
+    "per_device_eval_batch_size": 1,
     "eval_accumulation_steps":16,
     "num_train_epochs": 1,
     "learning_rate": 3e-05,
     "warmup_steps": 10,
     "logging_steps": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "evaluation_strategy": "epoch",
     "save_strategy": "epoch",
-    "src_length": 1024,
-    "max_length": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
     "do_train": true,
diff --git a/examples/config/gpt_oss/sft_argument_gptoss_20b.json b/examples/config/gpt_oss/sft_argument_gptoss_20b.json
@@ -1,24 +1,31 @@
 {
     "model_name_or_path": "../gpt-oss-model-bf16",
-    "dataset_name_or_path": "./data",
+    "train_dataset_path": "./data/train.json",
+    "train_dataset_prob": "1.0",
+    "train_dataset_type": "erniekit",
+    "eval_dataset_path": "./data/dev.json",
+    "eval_dataset_prob": "1.0",
+    "eval_dataset_type": "erniekit",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/gptoss_paddle_sft_ckpts",
+    "max_seq_len": 8192,
     "overwrite_output_dir": false,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 4,
-    "per_device_eval_batch_size": 8,
+    "per_device_eval_batch_size": 1,
     "eval_accumulation_steps":16,
     "num_train_epochs": 1,
     "learning_rate": 3e-05,
     "warmup_steps": 10,
     "logging_steps": 1,
+    "max_steps": -1,
     "evaluation_strategy": "epoch",
     "save_strategy": "epoch",
-    "src_length": 1024,
-    "max_length": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
     "do_train": true,
-    "do_eval": false,
+    "do_eval": true,
     "disable_tqdm": true,
     "load_best_model_at_end": true,
     "eval_with_do_generation": false,
diff --git a/examples/config/qwen/dpo_argument_qwen2_0p5b.json b/examples/config/qwen/dpo_argument_qwen2_0p5b.json
@@ -7,22 +7,22 @@
     "eval_dataset_path": "./data/dpo/dev.jsonl",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/qwen2_paddle_dpo_ckpts",
+    "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 8,
     "per_device_eval_batch_size": 1,
     "num_train_epochs": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "learning_rate": 1e-06,
     "warmup_steps": 10,
     "logging_steps": 1,
     "evaluation_strategy": "steps",
     "save_strategy": "steps",
     "eval_steps": 100,
     "save_steps": 500,
-    "max_seq_len": 2048,
     "max_prompt_len": 1024,
     "bf16": true,
     "fp16_opt_level": "O2",
diff --git a/examples/config/qwen/dpo_lora_argument_qwen2_0p5b.json b/examples/config/qwen/dpo_lora_argument_qwen2_0p5b.json
@@ -7,22 +7,22 @@
     "eval_dataset_path": "./data/dpo/dev.jsonl",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/qwen2_paddle_dpo_lora_ckpts",
+    "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 8,
     "per_device_eval_batch_size": 1,
     "num_train_epochs": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "learning_rate": 1e-05,
     "warmup_steps": 10,
     "logging_steps": 1,
     "evaluation_strategy": "steps",
     "save_strategy": "steps",
     "eval_steps": 100,
     "save_steps": 500,
-    "max_seq_len": 4096,
     "max_prompt_len": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
diff --git a/examples/config/qwen/lora_argument_qwen2_0p5b.json b/examples/config/qwen/lora_argument_qwen2_0p5b.json
@@ -6,23 +6,21 @@
     "eval_dataset_path": "./data/sft/dev.json",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/qwen2_paddle_lora_ckpts",
     "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 4,
-    "per_device_eval_batch_size": 8,
+    "per_device_eval_batch_size": 1,
     "eval_accumulation_steps":16,
     "num_train_epochs": 1,
     "learning_rate": 3e-04,
     "warmup_steps": 30,
     "logging_steps": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "evaluation_strategy": "epoch",
     "save_strategy": "epoch",
-    "src_length": 1024,
-    "max_length": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
     "do_train": true,
diff --git a/examples/config/qwen/sft_argument_qwen2_0p5b.json b/examples/config/qwen/sft_argument_qwen2_0p5b.json
@@ -6,23 +6,21 @@
     "eval_dataset_path": "./data/sft/dev.json",
     "eval_dataset_prob": "1.0",
     "eval_dataset_type": "erniekit",
-    "packing": true,
-    "mix_strategy": "random",
+    "packing": false,
+    "mix_strategy": "concat",
     "output_dir": "./checkpoints/qwen2_paddle_sft_ckpts",
     "max_seq_len": 8192,
     "per_device_train_batch_size": 1,
     "gradient_accumulation_steps": 4,
-    "per_device_eval_batch_size": 8,
+    "per_device_eval_batch_size": 1,
     "eval_accumulation_steps":16,
     "num_train_epochs": 1,
     "learning_rate": 3e-05,
     "warmup_steps": 10,
     "logging_steps": 1,
-    "max_steps": 100,
+    "max_steps": -1,
     "evaluation_strategy": "epoch",
     "save_strategy": "epoch",
-    "src_length": 1024,
-    "max_length": 2048,
     "bf16": true,
     "fp16_opt_level": "O2",
     "do_train": true,
diff --git a/examples/run_finetune.py b/examples/run_finetune.py
@@ -12,16 +12,23 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import gc
 import os
 import sys
 from functools import partial
 
 import paddle
 
+from paddleformers.datasets.data_utils import estimate_training
 from paddleformers.datasets.finetuning import collate_fn
 from paddleformers.datasets.finetuning import create_dataset as create_dataset_sft
 from paddleformers.peft import LoRAConfig, LoRAModel
-from paddleformers.trainer import PdArgumentParser, get_last_checkpoint, set_seed
+from paddleformers.trainer import (
+    IntervalStrategy,
+    PdArgumentParser,
+    get_last_checkpoint,
+    set_seed,
+)
 from paddleformers.transformers import (
     AutoConfig,
     AutoModelForCausalLM,
@@ -155,7 +162,7 @@ def main():
     if model_args.fuse_attention_ffn is not None:
         model_config.fuse_attention_ffn = model_args.fuse_attention_ffn
     model_config.pp_seg_method = training_args.pp_seg_method
-    model_config.seq_length = data_args.max_length
+    model_config.seq_length = training_args.max_seq_len
     model_config.max_sequence_length = training_args.max_seq_len
     model_config.num_nextn_predict_layers = model_args.num_nextn_predict_layers
     logger.info(f"Final model config: {model_config}")
@@ -262,6 +269,47 @@ def neft_post_hook(module, input, output):
         model_args=model_args,
         max_seq_len=training_args.max_seq_len + model_config.num_nextn_predict_layers,
     )
+
+    if training_args.max_steps == -1:
+        if data_args.mix_strategy == "random":
+            raise ValueError(
+                "When using 'random' mix_strategy, max_steps must be explicitly set (cannot be -1). "
+                "Random mixing requires a fixed number of training steps to properly sample data."
+            )
+        if paddle.distributed.get_rank() == 0:
+            training_args.max_steps = estimate_training(train_dataset, data_args, training_args, model_args)
+            del train_dataset
+            gc.collect()
+            train_dataset = create_dataset_sft(
+                task_group=data_args.train_dataset_path,
+                task_group_prob=data_args.train_dataset_prob,
+                sub_dataset_type=data_args.train_dataset_type,
+                **dataset_config,
+            )
+
+        if paddle.distributed.get_world_size() > 1:
+            paddle.distributed.barrier()
+            max_steps = paddle.to_tensor([training_args.max_steps])
+            paddle.distributed.broadcast(max_steps, src=0)
+            training_args.max_steps = int(max_steps.item())
+        if training_args.max_steps <= 0:
+            raise ValueError(f"Invalid max_steps: {training_args.max_steps}. Please check your dataset")
+
+        logger.info(f"Re-setting training_args.max_steps to {training_args.max_steps}.")
+    # Create the learning_rate sheduler and optimizer
+    if training_args.decay_steps is None:
+        training_args.decay_steps = training_args.max_steps
+
+    if training_args.save_strategy == IntervalStrategy.EPOCH:
+        training_args.save_strategy = IntervalStrategy.STEPS
+        training_args.save_steps = int(training_args.max_steps / training_args.num_train_epochs)
+    if training_args.evaluation_strategy == IntervalStrategy.EPOCH:
+        training_args.evaluation_strategy = IntervalStrategy.STEPS
+        training_args.eval_steps = int(training_args.max_steps / training_args.num_train_epochs)
+    if training_args.logging_strategy == IntervalStrategy.EPOCH:
+        training_args.logging_strategy = IntervalStrategy.STEPS
+        training_args.logging_steps = int(training_args.max_steps / training_args.num_train_epochs)
+
     trainer = SFTTrainer(
         model=model,
         args=training_args,
diff --git a/paddleformers/datasets/data_utils.py b/paddleformers/datasets/data_utils.py
diff --git a/paddleformers/trl/sft_config.py b/paddleformers/trl/sft_config.py
diff --git a/paddleformers/trl/sftdata_config.py b/paddleformers/trl/sftdata_config.py