Fix for review comments 2

qcdipankar · qcdipankar · commit 47dd7483ce74 · 2026-03-11T03:26:40.000Z
Signed-off-by: Dipankar Sarkar &lt;dipankar@qti.qualcomm.com&gt;
diff --git a/QEfficient/generation/embedding_handler.py b/QEfficient/generation/embedding_handler.py
@@ -252,10 +252,14 @@ def prepare_vlm_inputs(self, image_url: str, query: str, prefill_seq_len: int) -
 
             # Process image and text
             inputs = self._processor(images=image, text=prompt, return_tensors="pt")
-            if (hasattr(self._qeff_model.model.config, "model_type")and self._qeff_model.model.config.model_type in {"qwen2_5_vl", "qwen3_vl_moe", "qwen3_vl"}):
+            if hasattr(self._qeff_model.model.config, "model_type") and self._qeff_model.model.config.model_type in {
+                "qwen2_5_vl",
+                "qwen3_vl_moe",
+                "qwen3_vl",
+            }:
                 inputs = self._qeff_model.model.prepare_inputs_for_generation(
-                        inputs=inputs, prefill_seq_len=prefill_seq_len, batch_size=inputs["input_ids"].shape[0]
-                    )
+                    inputs=inputs, prefill_seq_len=prefill_seq_len, batch_size=inputs["input_ids"].shape[0]
+                )
 
             # Convert to float32 if needed
             if "pixel_values" in inputs:
diff --git a/QEfficient/generation/vlm_generation.py b/QEfficient/generation/vlm_generation.py
@@ -146,7 +146,11 @@ def __init__(
         )
 
         # Vision-specific initialization
-        self.is_qwen_vl = (hasattr(qeff_model.model.config, "model_type")and qeff_model.model.config.model_type in {"qwen2_5_vl", "qwen3_vl_moe", "qwen3_vl"})
+        self.is_qwen_vl = hasattr(qeff_model.model.config, "model_type") and qeff_model.model.config.model_type in {
+            "qwen2_5_vl",
+            "qwen3_vl_moe",
+            "qwen3_vl",
+        }
         self.qeff_model = qeff_model
         self.processor = processor
         self.tokenizer = tokenizer
@@ -280,7 +284,6 @@ def update_decode_inputs_qwen_vl(self, outputs, position_ids, generation_len, de
         self.generation_len[decode_batch_id or slice(None)] = generation_len
         return next_token_id
 
-
     def _execute_chunked_prefill(
         self,
         lang_inputs: Dict[str, np.ndarray],
diff --git a/QEfficient/transformers/cache_utils.py b/QEfficient/transformers/cache_utils.py
@@ -429,7 +429,6 @@ def update3D(
         self.append_new_layers(layer_idx)
         return self.layers[layer_idx].update3D(key_states, value_states, cache_kwargs)
 
-   
 
 class QEffEncoderDecoderCache(EncoderDecoderCache):
     """