Fzilan
diff --git a/‎examples/transformers/qwen2_5_vl/generate.py‎
Lines changed: 67 additions & 0 deletions b/‎examples/transformers/qwen2_5_vl/generate.py‎
Lines changed: 67 additions & 0 deletions
diff --git a/‎examples/transformers/qwen2_5_vl/generate_batch.py‎
Lines changed: 90 additions & 0 deletions b/‎examples/transformers/qwen2_5_vl/generate_batch.py‎
Lines changed: 90 additions & 0 deletions
diff --git a/‎mindone/transformers/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎mindone/transformers/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎mindone/transformers/generation/logits_process.py‎
Lines changed: 2 additions & 2 deletions b/‎mindone/transformers/generation/logits_process.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎mindone/transformers/models/__init__.py‎
Lines changed: 1 addition & 2 deletions b/‎mindone/transformers/models/__init__.py‎
Lines changed: 1 addition & 2 deletions
@@ -0,0 +1,67 @@
+import os
+import ssl
+import urllib.request
+from typing import Optional
+
+from PIL import Image
+from transformers import AutoProcessor
+
+import mindspore as ms
+import mindspore.nn as nn
+
+from mindone.transformers import Qwen2_5_VLForConditionalGeneration
+
+MODEL_NAME = "Qwen/Qwen2.5-VL-7B-Instruct"
+
+
+def get_image(url: str, fname: Optional[str] = None) -> Image.Image:
+    if fname is None:
+        fname = os.path.basename(url)
+
+    if not os.path.isfile(fname):
+        ssl._create_default_https_context = ssl._create_unverified_context  # disable ssl verify
+        urllib.request.urlretrieve(url, fname)
+    image = Image.open(fname)
+    return image
+
+
+def main():
+    with nn.no_init_parameters():
+        model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+            MODEL_NAME, mindspore_dtype=ms.bfloat16, attn_implementation="flash_attention_2"
+        )
+    processor = AutoProcessor.from_pretrained(MODEL_NAME)
+
+    get_image(
+        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg",
+        "demo.jpeg",
+    )
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "image",
+                    "url": "demo.jpeg",
+                },
+                {"type": "text", "text": "Describe this image."},
+            ],
+        }
+    ]
+
+    inputs = processor.apply_chat_template(
+        messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="np"
+    )
+    for k, v in inputs.items():
+        inputs[k] = ms.Tensor(v)
+
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
+    output_text = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )
+    print(output_text)
+
+
+if __name__ == "__main__":
+    main()
@@ -0,0 +1,90 @@
+import os
+import ssl
+import urllib.request
+from typing import Optional
+
+from PIL import Image
+from transformers import AutoProcessor
+
+import mindspore as ms
+import mindspore.nn as nn
+
+from mindone.transformers import Qwen2_5_VLForConditionalGeneration
+from mindone.transformers.models.qwen2_vl.qwen_vl_utils import process_vision_info
+
+MODEL_NAME = "Qwen/Qwen2.5-VL-7B-Instruct"
+
+
+def get_image(url: str, fname: Optional[str] = None) -> Image.Image:
+    if fname is None:
+        fname = os.path.basename(url)
+
+    if not os.path.isfile(fname):
+        ssl._create_default_https_context = ssl._create_unverified_context  # disable ssl verify
+        urllib.request.urlretrieve(url, fname)
+    image = Image.open(fname)
+    return image
+
+
+def main():
+    with nn.no_init_parameters():
+        model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+            MODEL_NAME, mindspore_dtype=ms.bfloat16, attn_implementation="flash_attention_2"
+        )
+    processor = AutoProcessor.from_pretrained(MODEL_NAME, padding_side="left")
+
+    get_image(
+        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg",
+        "demo.jpeg",
+    )
+    messages1 = [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "image",
+                    "image": "demo.jpeg",
+                },
+                {"type": "text", "text": "Describe this image."},
+            ],
+        }
+    ]
+
+    messages2 = [
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "image",
+                    "image": "demo.jpeg",
+                },
+                {"type": "text", "text": "Is this a AI generated image?"},
+            ],
+        }
+    ]
+    # Combine messages for batch processing
+    messages = [messages1, messages2]
+
+    texts = [processor.apply_chat_template(msg, tokenize=False, add_generation_prompt=True) for msg in messages]
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=texts,
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="np",
+    )
+    for k, v in inputs.items():
+        inputs[k] = ms.Tensor(v)
+
+    # Batch Inference
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
+    output_texts = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )
+    print(output_texts)
+
+
+if __name__ == "__main__":
+    main()
@@ -209,7 +209,8 @@
 from .models.qwen2_5_vl import Qwen2_5_VLForConditionalGeneration, Qwen2_5_VLModel, Qwen2_5_VLPreTrainedModel
 from .models.qwen2_audio import Qwen2AudioEncoder, Qwen2AudioForConditionalGeneration, Qwen2AudioPreTrainedModel
 from .models.qwen2_vl import Qwen2VLForConditionalGeneration, Qwen2VLModel, Qwen2VLPreTrainedModel
-from .models.qwen3 import Qwen3ForCausalLM, Qwen3Model, Qwen3PreTrainedModel
+
+# from .models.qwen3 import Qwen3ForCausalLM, Qwen3Model, Qwen3PreTrainedModel
 from .models.siglip import SiglipModel, SiglipPreTrainedModel, SiglipTextModel, SiglipVisionModel
 from .models.speecht5 import (
     SpeechT5ForSpeechToSpeech,
 
@@ -395,8 +395,8 @@ def __call__(
         if isinstance(scores, ms.Tensor):
             filter_value = self.filter_value if self.filter_value is not None else dtype_to_min(scores.dtype)
 
-            sorted_logits, sorted_indices = ops.sort(scores, descending=False)
-            cumulative_probs = sorted_logits.softmax(axis=-1).cumsum(axis=-1)
+            sorted_logits, sorted_indices = mint.sort(scores, descending=False)
+            cumulative_probs = sorted_logits.softmax(axis=-1).cumsum(dim=-1)
 
             # Remove tokens with cumulative top_p above the threshold (token with 0 are kept)
             sorted_indices_to_remove = cumulative_probs <= (1 - self.top_p)
 
@@ -1,4 +1,4 @@
-from . import (
+from . import (  # qwen3,
     albert,
     auto,
     bart,
@@ -31,7 +31,6 @@
     qwen2_5_vl,
     qwen2_audio,
     qwen2_vl,
-    qwen3,
     speecht5,
     switch_transformers,
     t5,