fix qwen2-vl position_ids (#2461)

Jintao-Huang · web-flow · commit 10a1143a1050 · 2024-11-16T20:36:21.000+08:00
diff --git a/swift/llm/utils/template.py b/swift/llm/utils/template.py
@@ -1627,18 +1627,20 @@ def _encode(self, example: Dict[str, Any]) -> Tuple[Dict[str, Any], Dict[str, An
                                                                                                + 1:]
                     added_tokens_len += token_len - 1
                 data.update(media_inputs)
-
-        inputs['input_ids'] = input_ids
+        # The architecture will be optimized in ms-swift3.0
+        data['input_ids'] = input_ids
         inputs['labels'] = labels
-        data['input_ids'] = torch.tensor(input_ids)[None]
         inputs['_data'] = data
+        inputs.update(data)
         return inputs, {}
 
     def _post_encode(self, model, data: Any) -> Dict[str, Any]:
+        if not self._is_training:
+            return data
         _model = model.model
         if not hasattr(_model, 'embed_tokens'):
             _model = _model.model  # LoRA
-        input_ids = data['input_ids']
+        input_ids = torch.tensor(data['input_ids'], device=model.device)[None]
         pixel_values = data.get('pixel_values')
         pixel_values_videos = data.get('pixel_values_videos')
         inputs_embeds = _model.embed_tokens(input_ids)