modelscope
diff --git a/‎docs/source/Instruction/命令行参数.md
Lines changed: 1 addition & 1 deletion b/‎docs/source/Instruction/命令行参数.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/Instruction/支持的模型和数据集.md
Lines changed: 42 additions & 40 deletions b/‎docs/source/Instruction/支持的模型和数据集.md
Lines changed: 42 additions & 40 deletions
diff --git a/‎docs/source_en/Instruction/Command-line-parameters.md
Lines changed: 1 addition & 1 deletion b/‎docs/source_en/Instruction/Command-line-parameters.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source_en/Instruction/Supported-models-and-datasets.md
Lines changed: 42 additions & 40 deletions b/‎docs/source_en/Instruction/Supported-models-and-datasets.md
Lines changed: 42 additions & 40 deletions
diff --git a/‎swift/llm/dataset/data/dataset_info.json
Lines changed: 1 addition & 1 deletion b/‎swift/llm/dataset/data/dataset_info.json
Lines changed: 1 addition & 1 deletion
diff --git a/‎swift/llm/model/constant.py
Lines changed: 1 addition & 0 deletions b/‎swift/llm/model/constant.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎swift/llm/model/model/glm.py
Lines changed: 62 additions & 39 deletions b/‎swift/llm/model/model/glm.py
Lines changed: 62 additions & 39 deletions
diff --git a/‎swift/llm/template/base.py
Lines changed: 5 additions & 0 deletions b/‎swift/llm/template/base.py
Lines changed: 5 additions & 0 deletions
diff --git a/‎swift/llm/template/constant.py
Lines changed: 1 addition & 0 deletions b/‎swift/llm/template/constant.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎swift/llm/template/template/dots.py
Lines changed: 0 additions & 7 deletions b/‎swift/llm/template/template/dots.py
Lines changed: 0 additions & 7 deletions
@@ -735,7 +735,7 @@ qwen2_5_omni除了包含qwen2_5_vl和qwen2_audio的模型特定参数外，还
 - HD_NUM: 图片数量为1时，默认值为24。大于1，默认为6。参考[这里](https://modelscope.cn/models/AI-ModelScope/internlm-xcomposer2d5-7b/file/view/master?fileName=modeling_internlm_xcomposer2.py&status=1#L254)。
 
 ### video_cogvlm2
-- NUM_FRAMES: 默认为24，参考[这里](https://github.com/THUDM/CogVLM2/blob/main/video_demo/inference.py#L22)。
+- NUM_FRAMES: 默认为24，参考[这里](https://github.com/zai-org/CogVLM2/blob/main/video_demo/inference.py#L22)。
 
 ### phi3_vision
 - NUM_CROPS: 默认为4，参考[这里](https://modelscope.cn/models/LLM-Research/Phi-3.5-vision-instruct)。
 
@@ -752,7 +752,7 @@ For the meaning of the arguments, please refer to [here](https://modelscope.cn/m
 - HD_NUM: Default is 24 when the number of images is 1. Greater than 1, the default is 6. Refer to [here](https://modelscope.cn/models/AI-ModelScope/internlm-xcomposer2d5-7b/file/view/master?fileName=modeling_internlm_xcomposer2.py&status=1#L254)
 
 ### video_cogvlm2
-- NUM_FRAMES: Default is 24, refer to [here](https://github.com/THUDM/CogVLM2/blob/main/video_demo/inference.py#L22)
+- NUM_FRAMES: Default is 24, refer to [here](https://github.com/zai-org/CogVLM2/blob/main/video_demo/inference.py#L22)
 
 ### phi3_vision
 - NUM_CROPS: Default is 4, refer to [here](https://modelscope.cn/models/LLM-Research/Phi-3.5-vision-instruct)
 
@@ -574,7 +574,7 @@
     {
         "ms_dataset_id": "ZhipuAI/LongWriter-6k",
         "tags": ["long", "chat", "sft", "🔥"],
-        "hf_dataset_id": "THUDM/LongWriter-6k"
+        "hf_dataset_id": "zai-org/LongWriter-6k"
     },
     {
         "ms_dataset_id": "swift/longwriter-6k-filtered",
 
@@ -162,6 +162,7 @@ class MLLMModelType:
 
     glm4v = 'glm4v'
     glm4_1v = 'glm4_1v'
+    glm4_5v = 'glm4_5v'
     glm_edge_v = 'glm_edge_v'
     cogvlm = 'cogvlm'
     cogagent_vqa = 'cogagent_vqa'
 
@@ -76,12 +76,12 @@ def cross_entropy_forward(self, inputs: torch.Tensor, target: torch.Tensor) -> t
     ModelMeta(
         LLMModelType.chatglm2, [
             ModelGroup([
-                Model('ZhipuAI/chatglm2-6b', 'THUDM/chatglm2-6b'),
-                Model('ZhipuAI/chatglm2-6b-32k', 'THUDM/chatglm2-6b-32k')
+                Model('ZhipuAI/chatglm2-6b', 'zai-org/chatglm2-6b'),
+                Model('ZhipuAI/chatglm2-6b-32k', 'zai-org/chatglm2-6b-32k')
             ],
                        requires=['transformers<4.42']),
             ModelGroup(
-                [Model('ZhipuAI/codegeex2-6b', 'THUDM/codegeex2-6b')],
+                [Model('ZhipuAI/codegeex2-6b', 'zai-org/codegeex2-6b')],
                 requires=['transformers<4.34'],
                 tags=['coding'],
             ),
@@ -95,10 +95,10 @@ def cross_entropy_forward(self, inputs: torch.Tensor, target: torch.Tensor) -> t
     ModelMeta(
         LLMModelType.chatglm3, [
             ModelGroup([
-                Model('ZhipuAI/chatglm3-6b', 'THUDM/chatglm3-6b'),
-                Model('ZhipuAI/chatglm3-6b-base', 'THUDM/chatglm3-6b-base'),
-                Model('ZhipuAI/chatglm3-6b-32k', 'THUDM/chatglm3-6b-32k'),
-                Model('ZhipuAI/chatglm3-6b-128k', 'THUDM/chatglm3-6b-128k'),
+                Model('ZhipuAI/chatglm3-6b', 'zai-org/chatglm3-6b'),
+                Model('ZhipuAI/chatglm3-6b-base', 'zai-org/chatglm3-6b-base'),
+                Model('ZhipuAI/chatglm3-6b-32k', 'zai-org/chatglm3-6b-32k'),
+                Model('ZhipuAI/chatglm3-6b-128k', 'zai-org/chatglm3-6b-128k'),
             ])
         ],
         TemplateType.glm4,
@@ -128,12 +128,12 @@ def get_model_tokenizer_glm4(model_dir: str,
         LLMModelType.glm4,
         [
             ModelGroup([
-                Model('ZhipuAI/glm-4-9b-chat', 'THUDM/glm-4-9b-chat'),
-                Model('ZhipuAI/glm-4-9b', 'THUDM/glm-4-9b'),
-                Model('ZhipuAI/glm-4-9b-chat-1m', 'THUDM/glm-4-9b-chat-1m'),
+                Model('ZhipuAI/glm-4-9b-chat', 'zai-org/glm-4-9b-chat'),
+                Model('ZhipuAI/glm-4-9b', 'zai-org/glm-4-9b'),
+                Model('ZhipuAI/glm-4-9b-chat-1m', 'zai-org/glm-4-9b-chat-1m'),
             ]),
             ModelGroup([
-                Model('ZhipuAI/LongWriter-glm4-9b', 'THUDM/LongWriter-glm4-9b'),
+                Model('ZhipuAI/LongWriter-glm4-9b', 'zai-org/LongWriter-glm4-9b'),
             ])
         ],
         TemplateType.glm4,
@@ -148,11 +148,11 @@ def get_model_tokenizer_glm4(model_dir: str,
         LLMModelType.glm4_0414,
         [
             ModelGroup([
-                Model('ZhipuAI/GLM-4-9B-0414', 'THUDM/GLM-4-9B-0414'),
-                Model('ZhipuAI/GLM-4-32B-0414', 'THUDM/GLM-4-32B-0414'),
-                Model('ZhipuAI/GLM-4-32B-Base-0414', 'THUDM/GLM-4-32B-Base-0414'),
-                Model('ZhipuAI/GLM-Z1-9B-0414', 'THUDM/GLM-Z1-9B-0414'),
-                Model('ZhipuAI/GLM-Z1-32B-0414', 'THUDM/GLM-Z1-32B-0414'),
+                Model('ZhipuAI/GLM-4-9B-0414', 'zai-org/GLM-4-9B-0414'),
+                Model('ZhipuAI/GLM-4-32B-0414', 'zai-org/GLM-4-32B-0414'),
+                Model('ZhipuAI/GLM-4-32B-Base-0414', 'zai-org/GLM-4-32B-Base-0414'),
+                Model('ZhipuAI/GLM-Z1-9B-0414', 'zai-org/GLM-Z1-9B-0414'),
+                Model('ZhipuAI/GLM-Z1-32B-0414', 'zai-org/GLM-Z1-32B-0414'),
             ])
         ],
         TemplateType.glm4_0414,
@@ -166,7 +166,7 @@ def get_model_tokenizer_glm4(model_dir: str,
     ModelMeta(
         LLMModelType.glm4_z1_rumination,
         [ModelGroup([
-            Model('ZhipuAI/GLM-Z1-Rumination-32B-0414', 'THUDM/GLM-Z1-Rumination-32B-0414'),
+            Model('ZhipuAI/GLM-Z1-Rumination-32B-0414', 'zai-org/GLM-Z1-Rumination-32B-0414'),
         ])],
         TemplateType.glm4_z1_rumination,
         get_model_tokenizer_with_flash_attn,
@@ -179,7 +179,7 @@ def get_model_tokenizer_glm4(model_dir: str,
     ModelMeta(
         LLMModelType.longwriter_llama3_1,
         [ModelGroup([
-            Model('ZhipuAI/LongWriter-llama3.1-8b', 'THUDM/LongWriter-llama3.1-8b'),
+            Model('ZhipuAI/LongWriter-llama3.1-8b', 'zai-org/LongWriter-llama3.1-8b'),
         ])],
         TemplateType.longwriter_llama,
         get_model_tokenizer_with_flash_attn,
@@ -192,7 +192,7 @@ def get_model_tokenizer_glm4(model_dir: str,
     ModelMeta(
         LLMModelType.codegeex4,
         [ModelGroup([
-            Model('ZhipuAI/codegeex4-all-9b', 'THUDM/codegeex4-all-9b'),
+            Model('ZhipuAI/codegeex4-all-9b', 'zai-org/codegeex4-all-9b'),
         ])],
         TemplateType.codegeex4,
         get_model_tokenizer_glm4,
@@ -231,13 +231,13 @@ def get_model_tokenizer_glm4v(model_dir: str,
         [
             ModelGroup(
                 [
-                    Model('ZhipuAI/glm-4v-9b', 'THUDM/glm-4v-9b'),
+                    Model('ZhipuAI/glm-4v-9b', 'zai-org/glm-4v-9b'),
                 ],
                 requires=['transformers>=4.42,<4.45'],
             ),
             ModelGroup(
                 [
-                    Model('ZhipuAI/cogagent-9b-20241220', 'THUDM/cogagent-9b-20241220'),
+                    Model('ZhipuAI/cogagent-9b-20241220', 'zai-org/cogagent-9b-20241220'),
                 ],
                 requires=['transformers>=4.42'],
             )
@@ -268,8 +268,8 @@ def get_model_tokenizer_glm4_1v(*args, **kwargs):
         [
             ModelGroup(
                 [
-                    Model('ZhipuAI/GLM-4.1V-9B-Base', 'THUDM/GLM-4.1V-9B-Base'),
-                    Model('ZhipuAI/GLM-4.1V-9B-Thinking', 'THUDM/GLM-4.1V-9B-Thinking'),
+                    Model('ZhipuAI/GLM-4.1V-9B-Base', 'zai-org/GLM-4.1V-9B-Base'),
+                    Model('ZhipuAI/GLM-4.1V-9B-Thinking', 'zai-org/GLM-4.1V-9B-Thinking'),
                 ],
                 requires=['transformers>=4.53'],
             ),
@@ -301,7 +301,7 @@ def get_model_tokenizer_cogvlm(model_dir: str,
     ModelMeta(
         MLLMModelType.cogvlm, [
             ModelGroup([
-                Model('ZhipuAI/cogvlm-chat', 'THUDM/cogvlm-chat-hf'),
+                Model('ZhipuAI/cogvlm-chat', 'zai-org/cogvlm-chat-hf'),
             ]),
         ],
         TemplateType.cogvlm,
@@ -314,7 +314,7 @@ def get_model_tokenizer_cogvlm(model_dir: str,
     ModelMeta(
         MLLMModelType.cogagent_chat, [
             ModelGroup([
-                Model('ZhipuAI/cogagent-chat', 'THUDM/cogagent-chat-hf'),
+                Model('ZhipuAI/cogagent-chat', 'zai-org/cogagent-chat-hf'),
             ]),
         ],
         TemplateType.cogagent_chat,
@@ -326,7 +326,7 @@ def get_model_tokenizer_cogvlm(model_dir: str,
 register_model(
     ModelMeta(
         MLLMModelType.cogagent_vqa, [ModelGroup([
-            Model('ZhipuAI/cogagent-vqa', 'THUDM/cogagent-vqa-hf'),
+            Model('ZhipuAI/cogagent-vqa', 'zai-org/cogagent-vqa-hf'),
         ])],
         TemplateType.cogagent_vqa,
         get_model_tokenizer_cogvlm,
@@ -353,8 +353,8 @@ def get_model_tokenizer_cogvlm2(*args, **kwargs):
     ModelMeta(
         MLLMModelType.cogvlm2, [
             ModelGroup([
-                Model('ZhipuAI/cogvlm2-llama3-chat-19B', 'THUDM/cogvlm2-llama3-chat-19B'),
-                Model('ZhipuAI/cogvlm2-llama3-chinese-chat-19B', 'THUDM/cogvlm2-llama3-chinese-chat-19B'),
+                Model('ZhipuAI/cogvlm2-llama3-chat-19B', 'zai-org/cogvlm2-llama3-chat-19B'),
+                Model('ZhipuAI/cogvlm2-llama3-chinese-chat-19B', 'zai-org/cogvlm2-llama3-chinese-chat-19B'),
             ]),
         ],
         TemplateType.cogvlm2,
@@ -368,7 +368,7 @@ def get_model_tokenizer_cogvlm2(*args, **kwargs):
         MLLMModelType.cogvlm2_video,
         [
             ModelGroup([
-                Model('ZhipuAI/cogvlm2-video-llama3-chat', 'THUDM/cogvlm2-video-llama3-chat'),
+                Model('ZhipuAI/cogvlm2-video-llama3-chat', 'zai-org/cogvlm2-video-llama3-chat'),
             ]),
         ],
         TemplateType.cogvlm2_video,
@@ -384,8 +384,8 @@ def get_model_tokenizer_cogvlm2(*args, **kwargs):
         LLMModelType.glm_edge,
         [
             ModelGroup([
-                Model('ZhipuAI/glm-edge-1.5b-chat', 'THUDM/glm-edge-1.5b-chat'),
-                Model('ZhipuAI/glm-edge-4b-chat', 'THUDM/glm-edge-4b-chat'),
+                Model('ZhipuAI/glm-edge-1.5b-chat', 'zai-org/glm-edge-1.5b-chat'),
+                Model('ZhipuAI/glm-edge-4b-chat', 'zai-org/glm-edge-4b-chat'),
             ]),
         ],
         TemplateType.glm4,
@@ -408,8 +408,8 @@ def get_model_tokenizer_glm_edge_v(model_dir: str, *args, **kwargs):
         MLLMModelType.glm_edge_v,
         [
             ModelGroup([
-                Model('ZhipuAI/glm-edge-v-2b', 'THUDM/glm-edge-v-2b'),
-                Model('ZhipuAI/glm-edge-4b-chat', 'THUDM/glm-edge-4b-chat'),
+                Model('ZhipuAI/glm-edge-v-2b', 'zai-org/glm-edge-v-2b'),
+                Model('ZhipuAI/glm-edge-4b-chat', 'zai-org/glm-edge-4b-chat'),
             ]),
         ],
         TemplateType.glm_edge_v,
@@ -425,16 +425,39 @@ def get_model_tokenizer_glm_edge_v(model_dir: str, *args, **kwargs):
         LLMModelType.glm4_5,
         [
             ModelGroup([
-                Model('ZhipuAI/GLM-4.5-Air-Base', 'THUDM/GLM-4.5-Air-Base'),
-                Model('ZhipuAI/GLM-4.5-Air', 'THUDM/GLM-4.5-Air'),
-                Model('ZhipuAI/GLM-4.5-Air-FP8', 'THUDM/GLM-4.5-Air-FP8'),
-                Model('ZhipuAI/GLM-4.5-Base', 'THUDM/GLM-4.5-Base'),
-                Model('ZhipuAI/GLM-4.5', 'THUDM/GLM-4.5'),
-                Model('ZhipuAI/GLM-4.5-FP8', 'THUDM/GLM-4.5-FP8'),
+                Model('ZhipuAI/GLM-4.5-Air-Base', 'zai-org/GLM-4.5-Air-Base'),
+                Model('ZhipuAI/GLM-4.5-Air', 'zai-org/GLM-4.5-Air'),
+                Model('ZhipuAI/GLM-4.5-Air-FP8', 'zai-org/GLM-4.5-Air-FP8'),
+                Model('ZhipuAI/GLM-4.5-Base', 'zai-org/GLM-4.5-Base'),
+                Model('ZhipuAI/GLM-4.5', 'zai-org/GLM-4.5'),
+                Model('ZhipuAI/GLM-4.5-FP8', 'zai-org/GLM-4.5-FP8'),
             ]),
         ],
         TemplateType.glm4_5,
         get_model_tokenizer_with_flash_attn,
         architectures=['Glm4MoeForCausalLM'],
         requires=['transformers>=4.54'],
     ))
+
+
+def get_model_tokenizer_glm4_5v(*args, **kwargs):
+    from transformers import Glm4vMoeForConditionalGeneration
+    kwargs['automodel_class'] = kwargs['automodel_class'] or Glm4vMoeForConditionalGeneration
+    return get_model_tokenizer_multimodal(*args, **kwargs)
+
+
+register_model(
+    ModelMeta(
+        MLLMModelType.glm4_5v,
+        [
+            ModelGroup([
+                Model('ZhipuAI/GLM-4.5V', 'zai-org/GLM-4.5V'),
+                Model('ZhipuAI/GLM-4.5V-FP8', 'zai-org/GLM-4.5V-FP8'),
+            ]),
+        ],
+        TemplateType.glm4_5v,
+        get_model_tokenizer_glm4_5v,
+        model_arch=ModelArch.glm4_1v,
+        architectures=['Glm4vMoeForConditionalGeneration'],
+        requires=['transformers>=4.56.0.dev'],
+    ))
@@ -1694,6 +1694,11 @@ def _data_collator_mm_data(self, batch: List[Dict[str, Any]]) -> Dict[str, Any]:
         pixel_values_videos = [b['pixel_values_videos'] for b in batch if b.get('pixel_values_videos') is not None]
         if len(pixel_values_videos) > 0:
             res['pixel_values_videos'] = torch.concat(pixel_values_videos)
+
+        for media_type in ['image', 'video']:
+            grid_thw = self.concat_tensor(batch, f'{media_type}_grid_thw', 0)
+            if grid_thw is not None:
+                res[f'{media_type}_grid_thw'] = grid_thw
         return res
 
     def _sp_data_collator(self, res, padding_to, tokenizer, padding_side):
 
@@ -160,6 +160,7 @@ class MLLMTemplateType:
     glm4v = 'glm4v'
     glm4_1v = 'glm4_1v'
     glm_edge_v = 'glm_edge_v'
+    glm4_5v = 'glm4_5v'
 
     minicpmv = 'minicpmv'
     minicpmv2_5 = 'minicpmv2_5'
 
@@ -49,13 +49,6 @@ def _get_new_tokens(i):
         encoded['loss_scale'] = loss_scale
         return encoded
 
-    def _data_collator_mm_data(self, batch: List[Dict[str, Any]]) -> Dict[str, Any]:
-        res = super()._data_collator_mm_data(batch)
-        grid_thw = self.concat_tensor(batch, 'image_grid_thw', 0)
-        if grid_thw is not None:
-            res['image_grid_thw'] = grid_thw
-        return res
-
 
 register_template(
     TemplateMeta(
Original file line number	Diff line number	Diff line change
`@@ -574,7 +574,7 @@`
`574`	`574`	`{`
`575`	`575`	`"ms_dataset_id": "ZhipuAI/LongWriter-6k",`
`576`	`576`	`"tags": ["long", "chat", "sft", "🔥"],`
`577`		`- "hf_dataset_id": "THUDM/LongWriter-6k"`
	`577`	`+ "hf_dataset_id": "zai-org/LongWriter-6k"`
`578`	`578`	`},`
`579`	`579`	`{`
`580`	`580`	`"ms_dataset_id": "swift/longwriter-6k-filtered",`