fix CI

openvino-dev-samples · openvino-dev-samples · commit 02a4acf759ea · 2025-10-31T01:56:50.000-07:00
fix CI
diff --git a/optimum/exporters/openvino/model_configs.py b/optimum/exporters/openvino/model_configs.py
@@ -2588,6 +2588,8 @@ def __init__(
         )
         self._behavior = behavior
         self._orig_config = config
+        model_mapping = {2.6: "llama", 4.0: "qwen2", 4.5: "qwen3"}
+        self.model_type = model_mapping[self._orig_config.version]
         if self._behavior == MiniCPMVConfigBehavior.VISION_EMBEDDINGS and hasattr(config, "vision_config"):
             self._config = config.vision_config
             self.DUMMY_INPUT_GENERATOR_CLASSES = (DummyMiniCPMVImageInputGenerator,)
@@ -2604,12 +2606,19 @@ def inputs(self) -> Dict[str, Dict[int, str]]:
                 "position_ids": {0: "batch_size", 1: "patch_size"},
             }
         if self._behavior == MiniCPMVConfigBehavior.RESAMPLER:
-            return {
-                "image_feature": {0: "batch_size", 1: "patch_height", 2: "patch_width"},
-                "pos_embed": {0: "patch_size", 1: "batch_size", 2: "num_patches"},
-                "key_padding_mask": {0: "batch_size", 1: "patch_size"},
-                "temporal_embed": {0: "patch_size", 1: "batch_size"},
-            }
+            if self._orig_config.version == 4.5:
+                return {
+                    "image_feature": {0: "batch_size", 1: "patch_height", 2: "patch_width"},
+                    "pos_embed": {0: "patch_size", 1: "batch_size", 2: "num_patches"},
+                    "key_padding_mask": {0: "batch_size", 1: "patch_size"},
+                    "temporal_embed": {0: "patch_size", 1: "batch_size"},
+                }
+            else:
+                return {
+                    "image_feature": {0: "batch_size", 1: "patch_height", 2: "patch_width"},
+                    "pos_embed": {0: "patch_size", 1: "batch_size", 2: "num_patches"},
+                    "key_padding_mask": {0: "batch_size", 1: "patch_size"},
+                }
         return {}
 
     @property
@@ -2633,18 +2642,18 @@ def with_behavior(
         """
         if isinstance(behavior, str) and not isinstance(behavior, MiniCPMVConfigBehavior):
             behavior = MiniCPMVConfigBehavior(behavior)
-        model_mapping = {2.6: "llama", 4.0: "qwen2", 4.5: "qwen3"}
+
         if behavior == MiniCPMVConfigBehavior.TEXT_EMBEDDINGS:
             return get_vlm_text_embeddings_config(
-                model_mapping[self._orig_config.version],
+                self.model_type,
                 self._orig_config,
                 self.int_dtype,
                 self.float_dtype,
             )
 
         if behavior == MiniCPMVConfigBehavior.LANGUAGE:
             return get_vlm_text_generation_config(
-                model_mapping[self._orig_config.version],
+                self.model_type,
                 self._orig_config,
                 self.int_dtype,
                 self.float_dtype,
diff --git a/optimum/exporters/openvino/model_patcher.py b/optimum/exporters/openvino/model_patcher.py
@@ -3333,13 +3333,11 @@ def _minicpmv_resampler_forward(self, image_feature, pos_embed, key_padding_mask
 
 
 def _minicpmv4_5_resampler_forward(self, image_feature, pos_embed, key_padding_mask, temporal_embed):
-    bs = image_feature.shape[0]
     image_feature = self.kv_proj(image_feature)  # B * L * D
     image_feature = self.ln_kv(image_feature).permute(1, 0, 2)  # L * B * D
-    image_feature = image_feature + pos_embed
-
-    image_feature_temporal = image_feature + temporal_embed  # [L, bs, D] + [1, bs, D]
-
+    image_feature_emb = image_feature + pos_embed
+    image_feature_temporal = image_feature_emb + temporal_embed  # [L, bs, D] + [1, bs, D]
+    bs = image_feature_temporal.shape[1]
     q = self.ln_q(self.query)  # Q * D
 
     q_bs = q.unsqueeze(1).repeat(1, bs, 1)
diff --git a/optimum/intel/openvino/modeling_visual_language.py b/optimum/intel/openvino/modeling_visual_language.py
@@ -1941,6 +1941,8 @@ def __init__(
     def get_vision_embeddings(self, pixel_values, input_ids=None, temporal_ids=None, **kwargs):
         if input_ids is not None and input_ids.shape[1] == 1:
             return None
+
+        all_temporal_ids = None
         if temporal_ids is not None:
             all_temporal_ids = []
             for t in temporal_ids:
@@ -2020,7 +2022,7 @@ def resampling(self, x, tgt_sizes, temporal_ids=None):
 
         max_patch_len = torch.max(patch_len)
         key_padding_mask = torch.zeros((bs, max_patch_len), dtype=torch.bool)
-        
+
         temporal_embed = None
         pos_embed = []
         pos_embed_temporal = []
@@ -2039,8 +2041,8 @@ def resampling(self, x, tgt_sizes, temporal_ids=None):
         pos_embed = torch.nn.utils.rnn.pad_sequence(pos_embed, batch_first=True, padding_value=0.0).permute(
             1, 0, 2
         )  # BLD => L * B * D
-
-        temporal_embed = torch.stack(pos_embed_temporal, dim=0).unsqueeze(0)
+        if temporal_pos_emb:
+            temporal_embed = torch.stack(pos_embed_temporal, dim=0).unsqueeze(0)
         res = torch.from_numpy(
             self.resampler(
                 image_feature=x,
@@ -4483,4 +4485,4 @@ def preprocess_inputs(
     "phi4_multimodal": _OVPhi4MMForCausalLM,
     "llama4": _OVLlama4ForCausalLM,
     "minicpmo": _OVMiniCPMOForCausalLM,
-}
+}