[model] support GLM4.1V (#4804)

hjh0119 · web-flow · commit 1477de3a6f55 · 2025-07-02T19:05:48.000+08:00
* init

* test glm41v

* fix image tokens

* fix grid

* test video

* fix video token

* rm model

* update doc

* diable video
diff --git a/docs/source/Instruction/支持的模型和数据集.md b/docs/source/Instruction/支持的模型和数据集.md
@@ -645,6 +645,8 @@
 |[XiaomiMiMo/MiMo-VL-7B-RL](https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL)|mimo_vl|mimo_vl|transformers>=4.49, qwen_vl_utils>=0.0.6, decord|&#x2718;|vision, video|[XiaomiMiMo/MiMo-VL-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL)|
 |[ZhipuAI/glm-4v-9b](https://modelscope.cn/models/ZhipuAI/glm-4v-9b)|glm4v|glm4v|transformers>=4.42,<4.45|&#x2718;|-|[THUDM/glm-4v-9b](https://huggingface.co/THUDM/glm-4v-9b)|
 |[ZhipuAI/cogagent-9b-20241220](https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220)|glm4v|glm4v|transformers>=4.42|&#x2718;|-|[THUDM/cogagent-9b-20241220](https://huggingface.co/THUDM/cogagent-9b-20241220)|
+|[ZhipuAI/GLM-4.1V-9B-Base](https://modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Base)|glm4_1v|glm4_1v|transformers>=4.53|&#x2718;|-|[THUDM/GLM-4.1V-9B-Base](https://huggingface.co/THUDM/GLM-4.1V-9B-Base)|
+|[ZhipuAI/GLM-4.1V-9B-Thinking](https://modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking)|glm4_1v|glm4_1v|transformers>=4.53|&#x2718;|-|[THUDM/GLM-4.1V-9B-Thinking](https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking)|
 |[ZhipuAI/glm-edge-v-2b](https://modelscope.cn/models/ZhipuAI/glm-edge-v-2b)|glm_edge_v|glm_edge_v|transformers>=4.46|&#x2718;|vision|[THUDM/glm-edge-v-2b](https://huggingface.co/THUDM/glm-edge-v-2b)|
 |[ZhipuAI/glm-edge-4b-chat](https://modelscope.cn/models/ZhipuAI/glm-edge-4b-chat)|glm_edge_v|glm_edge_v|transformers>=4.46|&#x2718;|vision|[THUDM/glm-edge-4b-chat](https://huggingface.co/THUDM/glm-edge-4b-chat)|
 |[ZhipuAI/cogvlm-chat](https://modelscope.cn/models/ZhipuAI/cogvlm-chat)|cogvlm|cogvlm|transformers<4.42|&#x2718;|-|[THUDM/cogvlm-chat-hf](https://huggingface.co/THUDM/cogvlm-chat-hf)|
diff --git a/docs/source_en/Instruction/Supported-models-and-datasets.md b/docs/source_en/Instruction/Supported-models-and-datasets.md
@@ -645,6 +645,8 @@ The table below introduces the models integrated with ms-swift:
 |[XiaomiMiMo/MiMo-VL-7B-RL](https://modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL)|mimo_vl|mimo_vl|transformers>=4.49, qwen_vl_utils>=0.0.6, decord|&#x2718;|vision, video|[XiaomiMiMo/MiMo-VL-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL)|
 |[ZhipuAI/glm-4v-9b](https://modelscope.cn/models/ZhipuAI/glm-4v-9b)|glm4v|glm4v|transformers>=4.42,<4.45|&#x2718;|-|[THUDM/glm-4v-9b](https://huggingface.co/THUDM/glm-4v-9b)|
 |[ZhipuAI/cogagent-9b-20241220](https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220)|glm4v|glm4v|transformers>=4.42|&#x2718;|-|[THUDM/cogagent-9b-20241220](https://huggingface.co/THUDM/cogagent-9b-20241220)|
+|[ZhipuAI/GLM-4.1V-9B-Base](https://modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Base)|glm4_1v|glm4_1v|transformers>=4.53|&#x2718;|-|[THUDM/GLM-4.1V-9B-Base](https://huggingface.co/THUDM/GLM-4.1V-9B-Base)|
+|[ZhipuAI/GLM-4.1V-9B-Thinking](https://modelscope.cn/models/ZhipuAI/GLM-4.1V-9B-Thinking)|glm4_1v|glm4_1v|transformers>=4.53|&#x2718;|-|[THUDM/GLM-4.1V-9B-Thinking](https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking)|
 |[ZhipuAI/glm-edge-v-2b](https://modelscope.cn/models/ZhipuAI/glm-edge-v-2b)|glm_edge_v|glm_edge_v|transformers>=4.46|&#x2718;|vision|[THUDM/glm-edge-v-2b](https://huggingface.co/THUDM/glm-edge-v-2b)|
 |[ZhipuAI/glm-edge-4b-chat](https://modelscope.cn/models/ZhipuAI/glm-edge-4b-chat)|glm_edge_v|glm_edge_v|transformers>=4.46|&#x2718;|vision|[THUDM/glm-edge-4b-chat](https://huggingface.co/THUDM/glm-edge-4b-chat)|
 |[ZhipuAI/cogvlm-chat](https://modelscope.cn/models/ZhipuAI/cogvlm-chat)|cogvlm|cogvlm|transformers<4.42|&#x2718;|-|[THUDM/cogvlm-chat-hf](https://huggingface.co/THUDM/cogvlm-chat-hf)|
diff --git a/swift/llm/model/constant.py b/swift/llm/model/constant.py
@@ -154,6 +154,7 @@ class MLLMModelType:
     mimo_vl = 'mimo_vl'
 
     glm4v = 'glm4v'
+    glm4_1v = 'glm4_1v'
     glm_edge_v = 'glm_edge_v'
     cogvlm = 'cogvlm'
     cogagent_vqa = 'cogagent_vqa'
diff --git a/swift/llm/model/model/glm.py b/swift/llm/model/model/glm.py
@@ -13,7 +13,8 @@
 from ..constant import LLMModelType, MLLMModelType
 from ..model_arch import ModelArch
 from ..patcher import patch_output_to_input_device
-from ..register import Model, ModelGroup, ModelMeta, get_model_tokenizer_with_flash_attn, register_model
+from ..register import (Model, ModelGroup, ModelMeta, get_model_tokenizer_multimodal,
+                        get_model_tokenizer_with_flash_attn, register_model)
 from ..utils import AttnImpl, ModelInfo, safe_snapshot_download
 
 logger = get_logger()
@@ -231,6 +232,35 @@ def get_model_tokenizer_glm4v(model_dir: str,
     ))
 
 
+def get_model_tokenizer_glm4_1v(*args, **kwargs):
+    from transformers import Glm4vForConditionalGeneration
+    logger.info(
+        "If you encounter the error 'TypeError: group_images_by_shape() missing 1 required positional argument: "
+        "\"disable_grouping\"', please install the source version of the transformers library.")
+
+    kwargs['automodel_class'] = kwargs['automodel_class'] or Glm4vForConditionalGeneration
+    return get_model_tokenizer_multimodal(*args, **kwargs)
+
+
+register_model(
+    ModelMeta(
+        MLLMModelType.glm4_1v,
+        [
+            ModelGroup(
+                [
+                    Model('ZhipuAI/GLM-4.1V-9B-Base', 'THUDM/GLM-4.1V-9B-Base'),
+                    Model('ZhipuAI/GLM-4.1V-9B-Thinking', 'THUDM/GLM-4.1V-9B-Thinking'),
+                ],
+                requires=['transformers>=4.53'],
+            ),
+        ],
+        TemplateType.glm4_1v,
+        get_model_tokenizer_glm4_1v,
+        architectures=['Glm4vForConditionalGeneration'],
+        model_arch=ModelArch.glm4_1v,
+    ))
+
+
 def get_model_tokenizer_cogvlm(model_dir: str,
                                model_info: ModelInfo,
                                model_kwargs: Dict[str, Any],
diff --git a/swift/llm/model/model_arch.py b/swift/llm/model/model_arch.py
@@ -34,6 +34,7 @@ class MLLMModelArch:
 
     cogvlm = 'cogvlm'
     glm4v = 'glm4v'
+    glm4_1v = 'glm4_1v'
     glm_edge_v = 'glm_edge_v'
 
     llama3_1_omni = 'llama3_1_omni'
@@ -511,6 +512,14 @@ def register_model_arch(model_arch: ModelKeys, *, exist_ok: bool = False) -> Non
         vision_tower='transformer.vision',
     ))
 
+register_model_arch(
+    MultiModelKeys(
+        MLLMModelArch.glm4_1v,
+        language_model='model.language_model',
+        aligner='model.visual.merger',
+        vision_tower='model.visual',
+    ))
+
 register_model_arch(
     MultiModelKeys(
         MLLMModelArch.idefics3,
diff --git a/swift/llm/template/constant.py b/swift/llm/template/constant.py
@@ -152,6 +152,7 @@ class MLLMTemplateType:
     cogvlm2 = 'cogvlm2'
     cogvlm2_video = 'cogvlm2_video'
     glm4v = 'glm4v'
+    glm4_1v = 'glm4_1v'
     glm_edge_v = 'glm_edge_v'
 
     minicpmv = 'minicpmv'
diff --git a/swift/llm/template/template/glm.py b/swift/llm/template/template/glm.py
@@ -69,6 +69,10 @@ class GLM4_0414TemplateMeta(GLM4TemplateMeta):
     agent_template: str = 'glm4_0414'
 
 
+class GLM4_1VTemplateMeta(GLM4_0414TemplateMeta):
+    system_prefix: Optional[Prompt] = field(default_factory=lambda: ['[gMASK]<sop><|system|>{{SYSTEM}}'])
+
+
 class GLM4VTemplate(Template):
 
     def replace_tag(self, media_type: Literal['image', 'video', 'audio'], index: int,
@@ -106,12 +110,132 @@ def _data_collator(self, batch: List[Dict[str, Any]], *, padding_to: Optional[in
         return res
 
 
+class GLM4_1VTemplate(Template):
+    begin_of_image_token = 151339
+    end_of_image_token = 151340
+    image_token = 151343
+    begin_of_video_token = 151341
+    end_of_video_token = 151342
+    video_token = 151344
+
+    def replace_tag(self, media_type: Literal['image', 'video', 'audio'], index: int,
+                    inputs: StdTemplateInputs) -> List[Context]:
+        # TODO: model video infer bug
+        assert media_type in ['image']
+        if media_type == 'image':
+            return [[-100]]
+        elif media_type == 'video':
+            return [[-200]]
+
+    def _encode(self, inputs: StdTemplateInputs) -> Dict[str, Any]:
+        encoded = super()._encode(inputs)
+        processor = self.processor
+        input_ids = encoded['input_ids']
+        labels = encoded['labels']
+        image_idx_list = findall(input_ids, -100)
+        video_idx_list = findall(input_ids, -200)
+        if image_idx_list:
+            images = inputs.images
+            image_inputs = processor.image_processor(images=images, return_tensors='pt')
+            encoded['pixel_values'] = image_inputs['pixel_values']
+            encoded['image_grid_thw'] = image_grid_thw = image_inputs['image_grid_thw']
+            merge_length = processor.image_processor.merge_size**2
+            added_tokens_len = 0
+            for i, idx in enumerate(image_idx_list):
+                num_image_tokens = image_grid_thw[i].prod() // merge_length
+                image_tokens = [self.begin_of_image_token
+                                ] + [self.image_token] * num_image_tokens + [self.end_of_image_token]
+
+                input_ids = input_ids[:added_tokens_len + idx] + image_tokens + input_ids[added_tokens_len + idx + 1:]
+                if labels is not None:
+                    labels = labels[:added_tokens_len + idx] + [-100] * len(image_tokens) + labels[added_tokens_len
+                                                                                                   + idx + 1:]
+                added_tokens_len += len(image_tokens) - 1
+
+        if video_idx_list:
+            # TODO: model video infer bug
+            assert len(
+                video_idx_list) <= 1, f'GLM4.1V model only support 1 video, but detected {len(video_idx_list)} <video> '
+            assert not image_idx_list, "GLM4.1V model doesn't support inputs containing both video and images"
+
+            video_fnames = inputs.videos
+            from transformers.video_utils import load_video
+            from transformers.image_utils import load_image
+            import numpy as np
+            video_metadata = []
+            videos = []
+            for fname in video_fnames:
+                if isinstance(fname, (list, tuple)) and isinstance(fname[0], str):
+                    video = [np.array(load_image(image_fname)) for image_fname in fname]
+                    # create a 4D video because `load_video` always returns a 4D array
+                    video = np.stack(video)
+                    metadata = None
+                else:
+                    video, metadata = load_video(fname)
+                videos.append(video)
+                video_metadata.append(metadata)
+            videos = [videos]
+            video_metadata = [video_metadata]
+
+            videos_inputs = processor.video_processor(videos=videos, video_metadata=video_metadata, return_tensors='pt')
+            encoded['pixel_values_videos'] = videos_inputs['pixel_values_videos']
+            encoded['video_grid_thw'] = video_grid_thw = videos_inputs['video_grid_thw']
+            timestamps = videos_inputs.pop('timestamps')
+            num_frames = len(video_grid_thw)
+            video_structure = [self.begin_of_video_token]
+            if hasattr(timestamps, 'tolist'):
+                timestamps_list = timestamps.tolist()[0]
+            else:
+                timestamps_list = timestamps[0] if isinstance(timestamps[0], list) else timestamps
+            unique_timestamps = []
+            for idx in range(0, len(timestamps_list)):
+                unique_timestamps.append(timestamps_list[idx])
+            selected_timestamps = unique_timestamps[:num_frames]
+            while len(selected_timestamps) < num_frames:
+                selected_timestamps.append(selected_timestamps[-1] if selected_timestamps else 0)
+            merge_length = processor.video_processor.merge_size**2
+            added_tokens_len = 0
+            for frame_idx in range(num_frames):
+                timestamp_sec = selected_timestamps[frame_idx]
+                num_image_tokens = video_grid_thw[frame_idx].prod() // merge_length
+                timestamp_sec_token = processor.tokenizer(str(timestamp_sec))['input_ids']
+                frame_structure = [self.begin_of_image_token] + [self.image_token] * num_image_tokens + \
+                    [self.end_of_image_token] + timestamp_sec_token
+                video_structure += frame_structure
+            video_structure += [self.end_of_video_token]
+
+            for i, idx in enumerate(video_idx_list):
+                # BUG in GLM4.1V?: All video placeholder take same tokens
+                # https://github.com/huggingface/transformers/blob/v4.53.0/src/transformers/models/glm4v/processing_glm4v.py#L165-L194
+                input_ids = input_ids[:added_tokens_len + idx] + video_structure + \
+                    input_ids[added_tokens_len + idx + 1:]
+                if labels is not None:
+                    labels = labels[:added_tokens_len + idx] + [-100] * len(video_structure) + \
+                        labels[added_tokens_len + idx + 1:]
+                added_tokens_len += len(video_structure) - 1
+
+        encoded['input_ids'] = input_ids
+        encoded['labels'] = labels
+        encoded['position_ids'] = list(range(len(input_ids)))
+        return encoded
+
+    def _data_collator_mm_data(self, batch: List[Dict[str, Any]]) -> Dict[str, Any]:
+        res = super()._data_collator_mm_data(batch)
+        for media_type in ['image', 'video']:
+            grid_thw = self.concat_tensor(batch, f'{media_type}_grid_thw', 0)
+            if grid_thw is not None:
+                res[f'{media_type}_grid_thw'] = grid_thw
+        return res
+
+
 register_template(GLM4TemplateMeta(MLLMTemplateType.glm4v, template_cls=GLM4VTemplate, suffix=['<|endoftext|>']))
 
 register_template(GLM4TemplateMeta(LLMTemplateType.glm4, template_cls=GLM4Template))
 
 register_template(GLM4_0414TemplateMeta(LLMTemplateType.glm4_0414, template_cls=GLM4_0414Template))
 
+register_template(GLM4_1VTemplateMeta(MLLMTemplateType.glm4_1v, template_cls=GLM4_1VTemplate))
+
 glm4z1rumination_system = (
     '你是一个专业的深度研究助手，通过提供的工具与模拟浏览器交互，来帮助用户完成深度信息调研和报告撰写任务。'
     '今年是 2025 年。\n\n'
diff --git a/tests/test_align/test_template/test_video.py b/tests/test_align/test_template/test_video.py
@@ -152,6 +152,16 @@ def test_qwen2_5_omni():
     assert response == response2 == ground_truth
 
 
+def test_glm4_1v():
+    messages = [{'role': 'user', 'content': '<video>What happened in the video?'}]
+    videos = ['https://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/baby.mp4']
+    pt_engine = PtEngine('ZhipuAI/GLM-4.1V-9B-Thinking')
+    response = _infer_model(pt_engine, messages=messages, videos=videos)
+    pt_engine.default_template.template_backend = 'jinja'
+    response2 = _infer_model(pt_engine, messages=messages, videos=videos)
+    assert response == response2
+
+
 if __name__ == '__main__':
     from swift.llm import PtEngine, RequestConfig
     from swift.utils import get_logger, seed_everything
@@ -165,4 +175,5 @@ def test_qwen2_5_omni():
     # test_minicpmo()
     # test_valley()
     # test_qwen2_5_vl()
-    test_qwen2_5_omni()
+    # test_qwen2_5_omni()
+    test_glm4_1v()  # bug now, wait model fix
diff --git a/tests/test_align/test_template/test_vision.py b/tests/test_align/test_template/test_vision.py
@@ -563,6 +563,21 @@ def test_kimi_vl_thinking():
                               'The second image is an illustration of four sheep in a car')
 
 
+def test_glm4_1v():
+    models = ['ZhipuAI/GLM-4.1V-9B-Thinking']
+    messages = [{'role': 'user', 'content': '<image><image>What is the difference between the two images?'}]
+    images = [
+        'http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png',
+        'http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png'
+    ]
+    for model in models:
+        pt_engine = PtEngine(model)
+        response = _infer_model(pt_engine, messages=messages, images=images)
+        pt_engine.default_template.template_backend = 'jinja'
+        response2 = _infer_model(pt_engine, messages=messages, images=images)
+        assert response == response2
+
+
 if __name__ == '__main__':
     from swift.llm import PtEngine, RequestConfig
     from swift.utils import get_logger, seed_everything
@@ -616,4 +631,5 @@ def test_kimi_vl_thinking():
     # test_internvl3_8b()
     # test_internvl3_9b()
     # test_kimi_vl()
-    test_kimi_vl_thinking()
+    # test_kimi_vl_thinking()
+    test_glm4_1v()