mindspore-lab
diff --git a/‎mindone/transformers/__init__.py‎
Lines changed: 19 additions & 0 deletions b/‎mindone/transformers/__init__.py‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎mindone/transformers/modeling_utils.py‎
Lines changed: 1 addition & 1 deletion b/‎mindone/transformers/modeling_utils.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎mindone/transformers/models/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎mindone/transformers/models/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎mindone/transformers/models/auto/configuration_auto.py‎
Lines changed: 7 additions & 0 deletions b/‎mindone/transformers/models/auto/configuration_auto.py‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎mindone/transformers/models/auto/image_processing_auto.py‎
Lines changed: 3 additions & 0 deletions b/‎mindone/transformers/models/auto/image_processing_auto.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎mindone/transformers/models/auto/modeling_auto.py‎
Lines changed: 11 additions & 0 deletions b/‎mindone/transformers/models/auto/modeling_auto.py‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎mindone/transformers/models/auto/processing_auto.py‎
Lines changed: 3 additions & 0 deletions b/‎mindone/transformers/models/auto/processing_auto.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎mindone/transformers/models/llava_next/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎mindone/transformers/models/llava_next/__init__.py‎
Lines changed: 3 additions & 0 deletions
@@ -278,6 +278,25 @@
 )
 from .models.llama import LlamaForCausalLM, LlamaForSequenceClassification, LlamaModel, LlamaPreTrainedModel
 from .models.llava import LlavaConfig, LlavaForConditionalGeneration
+from .models.llava_next import (
+    LlavaNextForConditionalGeneration,
+    LlavaNextImageProcessor,
+    LlavaNextPreTrainedModel,
+    LlavaNextProcessor,
+)
+from .models.llava_next_video import (
+    LlavaNextVideoForConditionalGeneration,
+    LlavaNextVideoImageProcessor,
+    LlavaNextVideoPreTrainedModel,
+    LlavaNextVideoProcessor,
+)
+from .models.llava_onevision import (
+    LlavaOnevisionForConditionalGeneration,
+    LlavaOnevisionImageProcessor,
+    LlavaOnevisionPreTrainedModel,
+    LlavaOnevisionProcessor,
+    LlavaOnevisionVideoProcessor,
+)
 from .models.m2m_100 import M2M100ForConditionalGeneration, M2M100Model, M2M100PreTrainedModel
 from .models.megatron_bert import (
     MegatronBertForCausalLM,
 
@@ -946,7 +946,7 @@ def _from_config(cls, config, **kwargs):
 
         if isinstance(mindspore_dtype, str):
             mindspore_dtype = getattr(ms, mindspore_dtype)
-        else:
+        elif mindspore_dtype is not None:
             TORCH_TO_MINDSPORE_DTYPE_MAP = {
                 "torch.float32": ms.float32,
                 "torch.bfloat16": ms.bfloat16,
 
@@ -51,6 +51,9 @@
     levit,
     llama,
     llava,
+    llava_next,
+    llava_next_video,
+    llava_onevision,
     m2m_100,
     megatron_bert,
     minicpm4,
 
@@ -76,6 +76,9 @@
         ("persimmon", "PersimmonConfig"),
         ("fuyu", "FuyuConfig"),
         ("llava", "LlavaConfig"),
+        ("llava_next", "LlavaNextConfig"),
+        ("llava_next_video", "LlavaNextVideoConfig"),
+        ("llava_onevision", "LlavaOnevisionConfig"),
         ("mistral", "MistralConfig"),
         ("mobilebert", "MobileBertConfig"),
         ("mpt", "MptConfig"),
@@ -162,6 +165,10 @@
         ("llama2", "Llama2"),
         ("llama3", "Llama3"),
         ("llava", "Llava"),
+        ("llava_next", "LLaVA-NeXT"),
+        ("llava_next_video", "LLaVa-NeXT-Video"),
+        ("llava_onevision", "LLaVA-Onevision"),
+        ("mistral", "Mistral"),
         ("persimmon", "Persimmon"),
         ("fuyu", "Fuyu"),
         ("mobilebert", "MobileBERT"),
 
@@ -52,6 +52,9 @@
             ("blip-2", ("BlipImageProcessor",)),
             ("clip", ("CLIPImageProcessor",)),
             ("dpt", ("DPTImageProcessor",)),
+            ("llava_next", ("LlavaNextImageProcessor",)),
+            ("llava_next_video", ("LlavaNextVideoImageProcessor",)),
+            ("llava_onevision", ("LlavaOnevisionImageProcessor",)),
         ]
     )
 
 
@@ -123,6 +123,9 @@
         ("idefics2", "Idefics2ForConditionalGeneration"),
         ("idefics3", "Idefics3ForConditionalGeneration"),
         ("llava", "LlavaForConditionalGeneration"),
+        ("llava_next", "LlavaNextForConditionalGeneration"),
+        ("llava_next_video", "LlavaNextVideoForConditionalGeneration"),
+        ("llava_onevision", "LlavaOnevisionForConditionalGeneration"),
         ("mobilebert", "MobileBertForPreTraining"),
         ("qwen2_audio", "Qwen2AudioForConditionalGeneration"),
         ("roberta", "RobertaForMaskedLM"),
@@ -214,6 +217,7 @@
         ("ijepa", "IJepaModel"),
         ("imagegpt", "ImageGPTModel"),
         ("levit", "LevitModel"),
+        ("siglip_vision_model", "SiglipVisionModel"),
     ]
 )
 
@@ -260,6 +264,9 @@
         ("idefics2", "Idefics2ForConditionalGeneration"),
         ("idefics3", "Idefics3ForConditionalGeneration"),
         ("llava", "LlavaForConditionalGeneration"),
+        ("llava_next", "LlavaNextForConditionalGeneration"),
+        ("llava_next_video", "LlavaNextVideoForConditionalGeneration"),
+        ("llava_onevision", "LlavaOnevisionForConditionalGeneration"),
         ("paligemma", "PaliGemmaForConditionalGeneration"),
         ("qwen2_5_vl", "Qwen2_5_VLForConditionalGeneration"),
         ("qwen2_vl", "Qwen2VLForConditionalGeneration"),
@@ -278,6 +285,8 @@
         ("idefics3", "Idefics3ForConditionalGeneration"),
         ("fuyu", "FuyuForCausalLM"),
         ("llava", "LlavaForConditionalGeneration"),
+        ("llava_next", "LlavaNextForConditionalGeneration"),
+        ("llava_onevision", "LlavaOnevisionForConditionalGeneration"),
         ("paligemma", "PaliGemmaForConditionalGeneration"),
         ("qwen2_5_vl", "Qwen2_5_VLForConditionalGeneration"),
         ("qwen2_vl", "Qwen2VLForConditionalGeneration"),
@@ -410,6 +419,7 @@
         ("led", "LEDForQuestionAnswering"),
         ("convbert", "ConvBertForQuestionAnswering"),
         ("llama", "LlamaForQuestionAnswering"),
+        ("mistral", "MistralForQuestionAnswering"),
         ("mobilebert", "MobileBertForQuestionAnswering"),
         ("megatron-bert", "MegatronBertForQuestionAnswering"),
         ("mistral", "MistralForQuestionAnswering"),
@@ -529,6 +539,7 @@
 
 MODEL_FOR_ZERO_SHOT_IMAGE_CLASSIFICATION_MAPPING_NAMES = OrderedDict(
     [
+        # Model for Zero Shot Image Classification mapping
         ("blip", "BlipModel"),
         ("siglip", "SiglipModel"),
     ]
 
@@ -50,6 +50,9 @@
 PROCESSOR_MAPPING_NAMES = OrderedDict(
     [
         ("blip", "BlipProcessor"),
+        ("llava_next", "LlavaNextProcessor"),
+        ("llava_next_video", "LlavaNextVideoProcessor"),
+        ("llava_onevision", "LlavaOnevisionProcessor"),
     ]
 )
 
 
@@ -0,0 +1,3 @@
+from .image_processing_llava_next import *
+from .modeling_llava_next import *
+from .processing_llava_next import *
Original file line number	Diff line number	Diff line change
`@@ -52,6 +52,9 @@`
`52`	`52`	`("blip-2", ("BlipImageProcessor",)),`
`53`	`53`	`("clip", ("CLIPImageProcessor",)),`
`54`	`54`	`("dpt", ("DPTImageProcessor",)),`
	`55`	`+ ("llava_next", ("LlavaNextImageProcessor",)),`
	`56`	`+ ("llava_next_video", ("LlavaNextVideoImageProcessor",)),`
	`57`	`+ ("llava_onevision", ("LlavaOnevisionImageProcessor",)),`
`55`	`58`	`]`
`56`	`59`	`)`
`57`	`60`
Original file line number	Diff line number	Diff line change
`@@ -50,6 +50,9 @@`
`50`	`50`	`PROCESSOR_MAPPING_NAMES = OrderedDict(`
`51`	`51`	`[`
`52`	`52`	`("blip", "BlipProcessor"),`
	`53`	`+ ("llava_next", "LlavaNextProcessor"),`
	`54`	`+ ("llava_next_video", "LlavaNextVideoProcessor"),`
	`55`	`+ ("llava_onevision", "LlavaOnevisionProcessor"),`
`53`	`56`	`]`
`54`	`57`	`)`
`55`	`58`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from .image_processing_llava_next import *`
	`2`	`+from .modeling_llava_next import *`
	`3`	`+from .processing_llava_next import *`