remove warning: unused or unrecognized kwargs images (#5357)

Jintao-Huang · Jintao-Huang · commit 9a356597d953 · 2025-08-14T15:30:55.000+08:00
diff --git a/swift/llm/template/template/kwai.py b/swift/llm/template/template/kwai.py
@@ -30,7 +30,6 @@ class KeyeVLTemplate(Template):
     def replace_tag(self, media_type: Literal['image', 'video', 'audio'], index: int,
                     inputs: StdTemplateInputs) -> List[Context]:
         from keye_vl_utils import fetch_image, fetch_video
-        # from qwen_vl_utils import fetch_image, fetch_video
         assert media_type in {'image', 'video'}
         if media_type == 'image':
             inputs.images[index] = fetch_image({'image': inputs.images[index]})
@@ -49,7 +48,6 @@ def replace_tag(self, media_type: Literal['image', 'video', 'audio'], index: int
             return ['<|vision_start|><|video_pad|><|vision_end|>']
 
     def _encode(self, inputs: StdTemplateInputs) -> Dict[str, Any]:
-        from keye_vl_utils import vision_process
         encoded = super()._encode(inputs)
         processor = self.processor
         input_ids = encoded['input_ids']
@@ -63,15 +61,16 @@ def _encode(self, inputs: StdTemplateInputs) -> Dict[str, Any]:
             if locals()[media_type]:
                 if media_type == 'images':
                     media_token = self.image_token_id
-                    media_inputs = processor.image_processor(
-                        images=images, videos=None, return_tensors='pt', do_resize=False)
+                    media_inputs = processor.image_processor(images=images, return_tensors='pt', do_resize=False)
                     media_grid_thw = media_inputs['image_grid_thw']
                 else:
+                    kwargs = {}
                     if hasattr(processor, 'video_processor'):
                         processor_func = processor.video_processor
                     else:
                         processor_func = processor.image_processor
-                    media_inputs = processor_func(images=None, videos=videos, return_tensors='pt', do_resize=False)
+                        kwargs['images'] = None
+                    media_inputs = processor_func(videos=videos, return_tensors='pt', do_resize=False, **kwargs)
                     media_grid_thw = media_inputs['video_grid_thw']
                     media_token = self.video_token_id
                     media_inputs['second_per_grid_ts'] = [
@@ -118,7 +117,7 @@ def _post_encode(self, model, inputs: Dict[str, Any]) -> Dict[str, Any]:
             if is_deepspeed_enabled():
                 from PIL import Image
                 images = [Image.new('RGB', (32, 32), (0, 0, 0))]
-                media_inputs = self.processor.image_processor(images=images, videos=None, return_tensors='pt')
+                media_inputs = self.processor.image_processor(images=images, return_tensors='pt')
                 device = input_ids.device
                 media_inputs = to_device(media_inputs, device)
                 pixel_values = media_inputs['pixel_values'].type(dtype)
diff --git a/swift/llm/template/template/qwen.py b/swift/llm/template/template/qwen.py
@@ -2,7 +2,7 @@
 import os
 from dataclasses import dataclass, field
 from functools import partial
-from typing import Any, Dict, List, Literal, Optional, Tuple
+from typing import Any, Dict, List, Literal, Optional
 
 import torch
 import torch.nn.functional as F
@@ -266,19 +266,19 @@ def _encode(self, inputs: StdTemplateInputs) -> Dict[str, Any]:
             if locals()[media_type]:
                 if media_type == 'images':
                     media_token = self.image_token_id
-                    media_inputs = processor.image_processor(
-                        images=images, videos=None, return_tensors='pt', do_resize=False)
+                    media_inputs = processor.image_processor(images=images, return_tensors='pt', do_resize=False)
                     media_grid_thw = media_inputs['image_grid_thw']
                 else:
+                    kwargs = {}
                     if hasattr(processor, 'video_processor'):
                         processor_func = processor.video_processor
                     else:
                         processor_func = processor.image_processor
-                    media_inputs = processor_func(images=None, videos=videos, return_tensors='pt', do_resize=False)
+                        kwargs['images'] = None
+                    media_inputs = processor_func(videos=videos, return_tensors='pt', do_resize=False, **kwargs)
                     media_grid_thw = media_inputs['video_grid_thw']
                     media_token = self.video_token_id
                     if self.version == 'v2_5':
-                        from qwen_vl_utils import vision_process
                         media_inputs['second_per_grid_ts'] = [
                             processor.image_processor.temporal_patch_size / tmp for tmp in fps
                         ]
@@ -335,7 +335,7 @@ def _post_encode(self, model, inputs: Dict[str, Any]) -> Dict[str, Any]:
             if is_deepspeed_enabled():
                 from PIL import Image
                 images = [Image.new('RGB', (32, 32), (0, 0, 0))]
-                media_inputs = self.processor.image_processor(images=images, videos=None, return_tensors='pt')
+                media_inputs = self.processor.image_processor(images=images, return_tensors='pt')
                 device = input_ids.device
                 media_inputs = to_device(media_inputs, device)
                 pixel_values = media_inputs['pixel_values'].type(dtype)
diff --git a/swift/llm/train/sft.py b/swift/llm/train/sft.py
@@ -300,11 +300,13 @@ def _encode_dataset(self, train_dataset, val_dataset):
                 continue
             if not args.lazy_tokenize and not args.streaming:
                 preprocessor = EncodePreprocessor(template=template)
+                batch_size = 100 if args.model_meta.is_multimodal else 1000
                 dataset = preprocessor(
                     dataset,
                     num_proc=args.dataset_num_proc,
                     load_from_cache_file=args.load_from_cache_file,
-                    strict=args.strict)
+                    strict=args.strict,
+                    batch_size=batch_size)
             datasets[i] = dataset
         template.model = origin_template_model