update

openvino-dev-samples · openvino-dev-samples · commit a96d993cff10 · 2025-10-30T23:56:10.000-07:00
diff --git a/optimum/intel/openvino/modeling_visual_language.py b/optimum/intel/openvino/modeling_visual_language.py
@@ -286,7 +286,7 @@ def __init__(self, model: ov.Model, parent_model: OVBaseModel) -> None:
         self.output_names = {key.get_any_name(): idx for idx, key in enumerate(self.model.outputs)}
 
     def forward(self, image_feature, pos_embed, key_padding_mask, temporal_embed=None):
-        self._compile()
+        self.compile()
         if temporal_embed is not None:
             result = self.request(
                 {
@@ -2020,7 +2020,8 @@ def resampling(self, x, tgt_sizes, temporal_ids=None):
 
         max_patch_len = torch.max(patch_len)
         key_padding_mask = torch.zeros((bs, max_patch_len), dtype=torch.bool)
-
+        
+        temporal_embed = None
         pos_embed = []
         pos_embed_temporal = []
         for i in range(bs):
@@ -2038,21 +2039,16 @@ def resampling(self, x, tgt_sizes, temporal_ids=None):
         pos_embed = torch.nn.utils.rnn.pad_sequence(pos_embed, batch_first=True, padding_value=0.0).permute(
             1, 0, 2
         )  # BLD => L * B * D
-        if pos_embed_temporal:
-            temporal_embed = torch.stack(pos_embed_temporal, dim=0).unsqueeze(0)
-            res = torch.from_numpy(
-                self.resampler(
-                    image_feature=x,
-                    pos_embed=pos_embed,
-                    key_padding_mask=key_padding_mask,
-                    temporal_embed=temporal_embed,
-                )
-            )
-        else:
-            # Print shapes of all inputs to resampler
-            res = torch.from_numpy(
-                self.resampler(image_feature=x, pos_embed=pos_embed, key_padding_mask=key_padding_mask)
+
+        temporal_embed = torch.stack(pos_embed_temporal, dim=0).unsqueeze(0)
+        res = torch.from_numpy(
+            self.resampler(
+                image_feature=x,
+                pos_embed=pos_embed,
+                key_padding_mask=key_padding_mask,
+                temporal_embed=temporal_embed,
             )
+        )
         return res
 
     def _set_2d_pos_cache(self, max_size):
@@ -4487,4 +4483,4 @@ def preprocess_inputs(
     "phi4_multimodal": _OVPhi4MMForCausalLM,
     "llama4": _OVLlama4ForCausalLM,
     "minicpmo": _OVMiniCPMOForCausalLM,
-}
+}