cherry pick from pr #2584 (#2592)

Jonathans575 · web-flow · commit 9c05b380a52b · 2025-09-18T12:03:39.000+08:00
diff --git a/examples/alignment/dpo/run_dpo.py b/examples/alignment/dpo/run_dpo.py
@@ -294,6 +294,7 @@ def main():
         eval_dataset = None
     logger.info("Creating dataset successfully ...")
 
+    max_seq_len = data_args.max_seq_len if data_args.packing else None
     trainer = DPOTrainer(
         model=model,
         ref_model=ref_model,
@@ -305,7 +306,7 @@ def main():
         data_collator=partial(
             collate_fn,
             tokenizer=tokenizer,
-            max_seq_len=data_args.max_seq_len,
+            max_seq_len=max_seq_len,
             use_sparse_head_and_loss_fn=model_args.use_sparse_head_and_loss_fn,
             use_fused_head_and_loss_fn=model_args.use_fused_head_and_loss_fn,
         ),
diff --git a/examples/run_finetune.py b/examples/run_finetune.py
@@ -262,11 +262,12 @@ def neft_post_hook(module, input, output):
     else:
         metrics = compute_metrics
 
+    max_seq_len = training_args.max_seq_len + model_config.num_nextn_predict_layers if data_args.packing else None
     data_collator = partial(
         collate_fn,
         tokenizer=tokenizer,
         model_args=model_args,
-        max_seq_len=training_args.max_seq_len + model_config.num_nextn_predict_layers,
+        max_seq_len=max_seq_len,
     )
 
     if training_args.max_steps == -1:
diff --git a/paddleformers/datasets/dpo.py b/paddleformers/datasets/dpo.py
@@ -153,7 +153,7 @@ def collate_fn(
             - attn_mask_startend_row_indices (int32, optional): Sparse attention row indices [batch_size, max_seq_len]
     """
     if max_seq_len is None:
-        raise ValueError("max_seq_len is None.")
+        max_seq_len = max(len(item.input_ids) for sequence in batch for item in sequence)
 
     input_dict = {
         "input_ids": [],
diff --git a/paddleformers/datasets/finetuning.py b/paddleformers/datasets/finetuning.py
@@ -130,6 +130,8 @@ def collate_fn(batch: List[List[Sequence]], tokenizer, model_args, max_seq_len:
     else:
         input_keys.append("attention_mask")
     return_list = []
+    if max_seq_len is None:
+        max_seq_len = max(len(item.token_ids) for sequence in batch for item in sequence)
     for batch_sequence in batch:
         original_token_ids = [seq.token_ids for seq in batch_sequence]
         token_ids = [sum(original_token_ids, [])]