[train] fix packing/padding_free & predict_with_generate (#4942)

Jintao-Huang · Jintao-Huang · commit 630cf940728a · 2025-07-14T17:16:22.000+08:00
diff --git a/swift/llm/train/sft.py b/swift/llm/train/sft.py
@@ -227,7 +227,7 @@ def _encode_dataset(self, train_dataset, val_dataset):
                     num_proc=args.dataset_num_proc,
                     strict=args.strict,
                     load_from_cache_file=args.load_from_cache_file)
-                if val_dataset is not None:
+                if val_dataset is not None and not predict_with_generate:
                     val_dataset = packing_dataset_cls(
                         self.template,
                         val_dataset,
diff --git a/swift/trainers/trainers.py b/swift/trainers/trainers.py
@@ -216,9 +216,15 @@ def _predict_data_collator(batch):
     def _patch_predict_with_generate(self):
         origin_data_collator = self.data_collator
         self.data_collator = self._predict_data_collator
+        _packing = self.template._packing
+        padding_free = self.template.padding_free
+        self.template._packing = False
+        self.template.padding_free = False
         try:
             yield
         finally:
+            self.template._packing = _packing
+            self.template.padding_free = padding_free
             self.data_collator = origin_data_collator
 
     def evaluate(self, *args, **kwargs):
diff --git a/tests/train/test_sft.py b/tests/train/test_sft.py
@@ -50,7 +50,7 @@ def test_mllm_mp():
     from swift.llm import sft_main, TrainArguments, infer_main, InferArguments
     result = sft_main(
         TrainArguments(
-            model='bytedance-research/Valley-Eagle-7B',
+            model='Qwen/Qwen2.5-VL-7B-Instruct',
             dataset=['modelscope/coco_2014_caption:validation#20'],
             # dataset=['modelscope/coco_2014_caption:validation#20', 'AI-ModelScope/alpaca-gpt4-data-en#20'],
             split_dataset_ratio=0.01,
@@ -270,10 +270,13 @@ def test_predict_with_generate():
     sft_main(
         TrainArguments(
             model='Qwen/Qwen2-7B-Instruct',
-            dataset=['AI-ModelScope/alpaca-gpt4-data-en#40'],
-            split_dataset_ratio=0.01,
+            dataset=['AI-ModelScope/alpaca-gpt4-data-en#400'],
             predict_with_generate=True,
-            split_dataset_ratio=0.5,
+            # padding_free=True,
+            max_length=512,
+            packing=True,
+            attn_impl='flash_attn',
+            split_dataset_ratio=0.01,
             **kwargs))