compat transformers 4.56 (#5666)

Jintao-Huang · web-flow · commit ab2133b32524 · 2025-09-04T18:03:15.000+08:00
diff --git a/requirements/framework.txt b/requirements/framework.txt
@@ -32,7 +32,7 @@ sortedcontainers>=1.5.9
 tensorboard
 tiktoken
 tqdm
-transformers>=4.33,<4.56
+transformers>=4.33,<4.57
 transformers_stream_generator
 trl>=0.15,<0.21
 uvicorn
diff --git a/swift/llm/template/template/qwen.py b/swift/llm/template/template/qwen.py
@@ -311,19 +311,22 @@ def _get_new_tokens(i):
     def forward_context(self, model, inputs):
         if 'real_position_ids' not in inputs:
             return super().forward_context(model, inputs)
-        position_ids = inputs['position_ids']
+        text_position_ids = inputs['position_ids']
         inputs['position_ids'] = inputs.pop('real_position_ids')
-        transformers_ge_453 = version.parse(transformers.__version__) >= version.parse('4.53')
-        if transformers_ge_453:
-            inputs.update(get_packed_seq_params(position_ids))
+        transformers_version = version.parse(transformers.__version__)
+        if transformers_version >= version.parse('4.53'):
+            if transformers_version >= version.parse('4.56'):
+                inputs['position_ids'] = torch.concat([text_position_ids[None], inputs['position_ids']], dim=0)
+            else:
+                inputs.update(get_packed_seq_params(text_position_ids))
             return super().forward_context(model, inputs)
         if self.version == 'v2':
             from transformers.models.qwen2_vl import modeling_qwen2_vl as modeling_module
         elif self.version == 'v2_5':
             from transformers.models.qwen2_5_vl import modeling_qwen2_5_vl as modeling_module
         elif self.version == 'omni':
             from transformers.models.qwen2_5_omni import modeling_qwen2_5_omni as modeling_module
-        return self._patch_flash_attention_forward(modeling_module, position_ids)
+        return self._patch_flash_attention_forward(modeling_module, text_position_ids)
 
     def _post_encode(self, model, inputs: Dict[str, Any]) -> Dict[str, Any]:
         if not self.is_training: