fix

zhhangBian · zhhangBian · commit bbbd6df85544 · 2025-09-09T14:58:38.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -6,3 +6,4 @@ dist
 .idea
 .vscode
 tmp/
+ref/
diff --git a/lightllm/models/mineru2_qwen/image_processing_mineru2.py b/lightllm/models/mineru2_qwen/image_processing_mineru2.py
@@ -93,7 +93,7 @@ def get_anyres_image_grid_shape(image_size, grid_pinpoints, patch_size):
     return width // patch_size, height // patch_size
 
 
-def process_anyres_image(image, processor, grid_pinpoints):
+def process_anyres_image(image, processor: "Mineru2ImageProcessor", grid_pinpoints):
     if isinstance(grid_pinpoints, str) and "x" in grid_pinpoints:
         patch_size = processor.crop_size["height"]
         assert patch_size in [224, 336, 384, 448, 512], "patch_size should be in [224, 336, 384, 448, 512]"
@@ -120,7 +120,7 @@ def process_anyres_image(image, processor, grid_pinpoints):
 
     image_patches = [image_original_resize] + patches
     image_patches = [
-        processor.preprocess(image_patch, return_tensors="pt")["pixel_values"][0] for image_patch in image_patches
+        processor.preprocess([image_patch], return_tensors="pt")["pixel_values"][0] for image_patch in image_patches
     ]
     return torch.stack(image_patches, dim=0)
 
diff --git a/lightllm/models/mineru2_qwen/mineru2_visual.py b/lightllm/models/mineru2_qwen/mineru2_visual.py
@@ -6,6 +6,7 @@
 
 import torch
 import torch.nn as nn
+import numpy as np
 from transformers import (
     CLIPVisionModel,
     CLIPVisionConfig,
@@ -14,7 +15,7 @@
 )
 
 from .configuration_mineru2 import Mineru2QwenConfig
-from .image_processing_mineru2 import Mineru2ImageProcessor
+from .image_processing_mineru2 import Mineru2ImageProcessor, expand2square, process_anyres_image
 
 from lightllm.server.multimodal_params import ImageItem
 from lightllm.server.embed_cache.utils import read_shm, get_shm_name_data
@@ -80,7 +81,11 @@ def load_model(self, weight_dir):
 
         self.vision_tower = build_vision_tower(vision_config)
         self.projector = build_vision_projector(vision_config)
-        self.image_processor = Mineru2ImageProcessor()
+        # 取配置参数传下去
+        self.image_processor = Mineru2ImageProcessor(
+            image_aspect_ratio=getattr(vision_config, "image_aspect_ratio", None),
+            image_grid_pinpoints=getattr(vision_config, "image_grid_pinpoints", None),
+        )
 
     def cuda(self):
         self.vision_tower = self.vision_tower.cuda()
@@ -97,24 +102,44 @@ def encode(self, images: List[ImageItem]) -> Tuple[torch.Tensor, List[str], List
         uuids: List[str] = []
         valid_id = 0
         valid_ids: List[List[int]] = []
-
+        image_aspect_ratio = getattr(self.image_processor, "image_aspect_ratio", None)
+        image_grid_pinpoints = getattr(self.image_processor, "image_grid_pinpoints", None)
         for i, img in enumerate(images):
             if isinstance(img, ImageItem):
                 uuids.append(img.uuid)
                 image_data = read_shm(get_shm_name_data(img.uuid))
                 image_data = Image.open(BytesIO(image_data)).convert("RGB")
-                t = self.image_processor.preprocess(image_data, return_tensors="pt")["pixel_values"]
+                if image_aspect_ratio == "pad":
+                    image_proc = expand2square(image_data, tuple(int(x * 255) for x in self.image_processor.image_mean))
+                    t = self.image_processor.preprocess(image_proc, return_tensors="pt")["pixel_values"]
+                elif image_aspect_ratio and (image_aspect_ratio == "anyres" or "anyres_max" in image_aspect_ratio):
+                    t = process_anyres_image(image_data, self.image_processor, image_grid_pinpoints)
+                    if isinstance(t, np.ndarray):
+                        t = torch.from_numpy(t)
+                else:
+                    t = self.image_processor.preprocess(image_data, return_tensors="pt")["pixel_values"]
+
+                if t.ndim == 5:
+                    print(f"[debug] mineru2_visual reshape t.ndim: {t.ndim}, t.shape: {t.shape}")
+                    t = t.view(-1, t.shape[-3], t.shape[-2], t.shape[-1])
+                elif t.ndim == 3:  # [3, H, W]
+                    print(f"[debug] mineru2_visual unsqueeze t.ndim: {t.ndim}, t.shape: {t.shape}")
+                    t = t.unsqueeze(0)
                 img_tensors.append(t)
             else:
                 raise Exception("Unsupport input types: {} for {}".format(type(img), img))
 
-            cur_num = img_tensors[-1].shape[0]
+            cur_num = (
+                img_tensors[-1].shape[0]
+                if isinstance(img_tensors[-1], torch.Tensor) and img_tensors[-1].dim() == 4
+                else 1
+            )
             valid_ids.append([valid_id, valid_id + cur_num])
             valid_id += cur_num
 
         if len(img_tensors) <= 0:
             return None, [], []
-
+        # 保证全部为4维后拼接
         img = torch.cat(img_tensors, dim=0)
         img = img.cuda()
         all_img_embeds = self.forward(img)
diff --git a/lightllm/models/mineru2_qwen/mode_cfg.json b/lightllm/models/mineru2_qwen/mode_cfg.json
@@ -0,0 +1,60 @@
+{
+  "_name_or_path": "",
+  "architectures": [
+    "Mineru2QwenForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "freeze_mm_mlp_adapter": false,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "image_aspect_ratio": "square_anyres_max_9",
+  "image_crop_resolution": "None",
+  "image_grid_pinpoints": "(1x1),...,(4x4)",
+  "image_split_resolution": "None",
+  "image_token_index": 151646,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "mm_hidden_size": 1152,
+  "mm_newline_position": "one_token",
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": 1e-05,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": "None",
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_box_start_end": true,
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "full",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": 1e-06,
+  "model_type": "mineru2_qwen",
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "pos_skipping_range": 4096,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": "None",
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "tokenizer_model_max_length": 16384,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "tune_entire_model": true,
+  "tune_mm_mlp_adapter": false,
+  "unfreeze_mm_vision_tower": true,
+  "use_cache": false,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_tower_pretrained": "None",
+  "vocab_size": 151654,
+  "_commit_hash": "None"
+}
diff --git a/mm_test.py b/mm_test.py
@@ -38,13 +38,11 @@ def run(query, uris):
 You are a helpful assistant.<|im_end|>
 <|im_start|>user
 <img></img>
-帮我提取这里面的文字，告诉我文字内容<|im_end|>
+这是什么？<|im_end|>
 <|im_start|>assistant
 """
 
-response = run(
-    uris=["https://pigkiller-011955-1319328397.cos.ap-beijing.myqcloud.com/img/202509081804761.png"], query=query
-)
+response = run(uris=["https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"], query=query)
 
 if response.status_code == 200:
     print(f"Result: {response.json()}")

-Original file line number
+Diff line change
 .idea
 .vscode
 tmp/
 +ref/