huggingface
diff --git a/‎scripts/convert_omnigen_to_diffusers.py‎
Lines changed: 138 additions & 3 deletions b/‎scripts/convert_omnigen_to_diffusers.py‎
Lines changed: 138 additions & 3 deletions
diff --git a/‎src/diffusers/models/embeddings.py‎
Lines changed: 2 additions & 2 deletions b/‎src/diffusers/models/embeddings.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/diffusers/models/transformers/transformer_omnigen.py‎
Lines changed: 5 additions & 4 deletions b/‎src/diffusers/models/transformers/transformer_omnigen.py‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎src/diffusers/pipelines/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎src/diffusers/pipelines/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/diffusers/pipelines/omnigen/kvcache_omnigen.py‎
Lines changed: 26 additions & 19 deletions b/‎src/diffusers/pipelines/omnigen/kvcache_omnigen.py‎
Lines changed: 26 additions & 19 deletions
@@ -1,5 +1,6 @@
 import argparse
 import os
+os.environ['HF_HUB_CACHE'] = '/share/shitao/downloaded_models2'
 
 import torch
 from safetensors.torch import load_file
@@ -44,15 +45,149 @@ def main(args):
         else:
             converted_state_dict[k] = v
 
-    transformer_config = AutoConfig.from_pretrained(args.origin_ckpt_path)
-
+    # transformer_config = AutoConfig.from_pretrained(args.origin_ckpt_path)
+    # print(type(transformer_config.__dict__))
+    # print(transformer_config.__dict__)
+    
+    transformer_config = {
+        "_name_or_path": "Phi-3-vision-128k-instruct",
+        "architectures": [
+            "Phi3ForCausalLM"
+        ],
+        "attention_dropout": 0.0,
+        "bos_token_id": 1,
+        "eos_token_id": 2,
+        "hidden_act": "silu",
+        "hidden_size": 3072,
+        "initializer_range": 0.02,
+        "intermediate_size": 8192,
+        "max_position_embeddings": 131072,
+        "model_type": "phi3",
+        "num_attention_heads": 32,
+        "num_hidden_layers": 32,
+        "num_key_value_heads": 32,
+        "original_max_position_embeddings": 4096,
+        "rms_norm_eps": 1e-05,
+        "rope_scaling": {
+            "long_factor": [
+            1.0299999713897705,
+            1.0499999523162842,
+            1.0499999523162842,
+            1.0799999237060547,
+            1.2299998998641968,
+            1.2299998998641968,
+            1.2999999523162842,
+            1.4499999284744263,
+            1.5999999046325684,
+            1.6499998569488525,
+            1.8999998569488525,
+            2.859999895095825,
+            3.68999981880188,
+            5.419999599456787,
+            5.489999771118164,
+            5.489999771118164,
+            9.09000015258789,
+            11.579999923706055,
+            15.65999984741211,
+            15.769999504089355,
+            15.789999961853027,
+            18.360000610351562,
+            21.989999771118164,
+            23.079999923706055,
+            30.009998321533203,
+            32.35000228881836,
+            32.590003967285156,
+            35.56000518798828,
+            39.95000457763672,
+            53.840003967285156,
+            56.20000457763672,
+            57.95000457763672,
+            59.29000473022461,
+            59.77000427246094,
+            59.920005798339844,
+            61.190006256103516,
+            61.96000671386719,
+            62.50000762939453,
+            63.3700065612793,
+            63.48000717163086,
+            63.48000717163086,
+            63.66000747680664,
+            63.850006103515625,
+            64.08000946044922,
+            64.760009765625,
+            64.80001068115234,
+            64.81001281738281,
+            64.81001281738281
+            ],
+            "short_factor": [
+            1.05,
+            1.05,
+            1.05,
+            1.1,
+            1.1,
+            1.1,
+            1.2500000000000002,
+            1.2500000000000002,
+            1.4000000000000004,
+            1.4500000000000004,
+            1.5500000000000005,
+            1.8500000000000008,
+            1.9000000000000008,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.000000000000001,
+            2.1000000000000005,
+            2.1000000000000005,
+            2.2,
+            2.3499999999999996,
+            2.3499999999999996,
+            2.3499999999999996,
+            2.3499999999999996,
+            2.3999999999999995,
+            2.3999999999999995,
+            2.6499999999999986,
+            2.6999999999999984,
+            2.8999999999999977,
+            2.9499999999999975,
+            3.049999999999997,
+            3.049999999999997,
+            3.049999999999997
+            ],
+            "type": "su"
+        },
+        "rope_theta": 10000.0,
+        "sliding_window": 131072,
+        "tie_word_embeddings": False,
+        "torch_dtype": "bfloat16",
+        "transformers_version": "4.38.1",
+        "use_cache": True,
+        "vocab_size": 32064,
+        "_attn_implementation": "sdpa"
+        }
     transformer = OmniGenTransformer2DModel(
         transformer_config=transformer_config,
         patch_size=2,
         in_channels=4,
         pos_embed_max_size=192,
     )
     transformer.load_state_dict(converted_state_dict, strict=True)
+    transformer.to(torch.bfloat16)
 
     num_model_params = sum(p.numel() for p in transformer.parameters())
     print(f"Total number of transformer parameters: {num_model_params}")
@@ -77,7 +212,7 @@ def main(args):
         "--origin_ckpt_path", default="Shitao/OmniGen-v1", type=str, required=False, help="Path to the checkpoint to convert."
     )
 
-    parser.add_argument("--dump_path", default="OmniGen-v1-diffusers", type=str, required=True, help="Path to the output pipeline.")
+    parser.add_argument("--dump_path", default="/share/shitao/repos/OmniGen-v1-diffusers", type=str, required=False, help="Path to the output pipeline.")
 
     args = parser.parse_args()
     main(args)
@@ -381,9 +381,9 @@ def forward(self,
             height, width = latent.shape[-2:]
             pos_embed = self.cropped_pos_embed(height, width)
             latent = self.patch_embeddings(latent, is_input_image)
-            latent = latent + pos_embed
+            patched_latents = latent + pos_embed
 
-        return latent
+        return patched_latents
 
 
 class LuminaPatchEmbed(nn.Module):
 
@@ -125,7 +125,7 @@ def forward(
                 )
                 use_cache = False
 
-        # kept for BC (non `Cache` `past_key_values` inputs)
+        # kept for BC (non `Cache` `past_key_values` inputs) 
         return_legacy_cache = False
         if use_cache and not isinstance(past_key_values, Cache):
             return_legacy_cache = True
@@ -240,7 +240,7 @@ class OmniGenTransformer2DModel(ModelMixin, ConfigMixin, PeftAdapterMixin):
     @register_to_config
     def __init__(
             self,
-            transformer_config: Phi3Config,
+            transformer_config: Dict,
             patch_size=2,
             in_channels=4,
             pos_embed_max_size: int = 192,
@@ -251,6 +251,7 @@ def __init__(
         self.patch_size = patch_size
         self.pos_embed_max_size = pos_embed_max_size
 
+        transformer_config = Phi3Config(**transformer_config)
         hidden_size = transformer_config.hidden_size
 
         self.patch_embedding = OmniGenPatchEmbed(patch_size=patch_size,
@@ -386,7 +387,7 @@ def forward(self,
                     "Passing `scale` via `attention_kwargs` when not using the PEFT backend is ineffective."
                 )
 
-        height, width = hidden_states.size(-2)
+        height, width = hidden_states.size()[-2:]
         hidden_states = self.patch_embedding(hidden_states, is_input_image=False)
         num_tokens_for_output_image = hidden_states.size(1)
 
@@ -405,7 +406,7 @@ def forward(self,
 
         image_embedding = output[:, -num_tokens_for_output_image:]
         time_emb = self.t_embedder(timestep, dtype=hidden_states.dtype)
-        x = self.final_layer(image_embedding, time_emb)
+        x = self.proj_out(self.norm_out(image_embedding, temb=time_emb))
         output = self.unpatchify(x, height, width)
 
         if not return_dict:
 
@@ -254,6 +254,7 @@
     )
     _import_structure["mochi"] = ["MochiPipeline"]
     _import_structure["musicldm"] = ["MusicLDMPipeline"]
+    _import_structure["omnigen"] = ["OmniGenPipeline"]
     _import_structure["paint_by_example"] = ["PaintByExamplePipeline"]
     _import_structure["pia"] = ["PIAPipeline"]
     _import_structure["pixart_alpha"] = ["PixArtAlphaPipeline", "PixArtSigmaPipeline"]
@@ -584,6 +585,7 @@
         )
         from .mochi import MochiPipeline
         from .musicldm import MusicLDMPipeline
+        from .omnigen import OmniGenPipeline
         from .pag import (
             AnimateDiffPAGPipeline,
             HunyuanDiTPAGPipeline,
 
@@ -1,15 +1,20 @@
+from tqdm import tqdm
 from typing import Optional, Dict, Any, Tuple, List
+import gc
 
 import torch
-from transformers.cache_utils import DynamicCache
+from transformers.cache_utils import Cache, DynamicCache, OffloadedCache
+
 
 
 class OmniGenCache(DynamicCache):
-    def __init__(self,
-                 num_tokens_for_img: int, offload_kv_cache: bool = False) -> None:
+    def __init__(self, 
+                num_tokens_for_img: int, 
+                offload_kv_cache: bool=False) -> None:
         if not torch.cuda.is_available():
-            raise RuntimeError(
-                "OmniGenCache can only be used with a GPU. If there is no GPU, you need to set use_kv_cache=False, which will result in longer inference time!")
+            # print("No avaliable GPU, offload_kv_cache wiil be set to False, which will result in large memory usage and time cost when input multiple images!!!")
+            # offload_kv_cache = False
+            raise RuntimeError("OffloadedCache can only be used with a GPU. If there is no GPU, you need to set use_kv_cache=False, which will result in longer inference time!")
         super().__init__()
         self.original_device = []
         self.prefetch_stream = torch.cuda.Stream()
@@ -25,17 +30,19 @@ def prefetch_layer(self, layer_idx: int):
                 self.key_cache[layer_idx] = self.key_cache[layer_idx].to(device, non_blocking=True)
                 self.value_cache[layer_idx] = self.value_cache[layer_idx].to(device, non_blocking=True)
 
+    
     def evict_previous_layer(self, layer_idx: int):
         "Moves the previous layer cache to the CPU"
         if len(self) > 2:
             # We do it on the default stream so it occurs after all earlier computations on these tensors are done
-            if layer_idx == 0:
+            if layer_idx == 0: 
                 prev_layer_idx = -1
             else:
                 prev_layer_idx = (layer_idx - 1) % len(self)
             self.key_cache[prev_layer_idx] = self.key_cache[prev_layer_idx].to("cpu", non_blocking=True)
             self.value_cache[prev_layer_idx] = self.value_cache[prev_layer_idx].to("cpu", non_blocking=True)
 
+
     def __getitem__(self, layer_idx: int) -> List[Tuple[torch.Tensor]]:
         "Gets the cache for this layer to the device. Prefetches the next and evicts the previous layer."
         if layer_idx < len(self):
@@ -44,12 +51,12 @@ def __getitem__(self, layer_idx: int) -> List[Tuple[torch.Tensor]]:
                 torch.cuda.current_stream().synchronize()
                 self.evict_previous_layer(layer_idx)
                 # Load current layer cache to its original device if not already there
-                # original_device = self.original_device[layer_idx]
+                original_device = self.original_device[layer_idx]
                 # self.prefetch_stream.synchronize(original_device)
-                self.prefetch_stream.synchronize()
+                torch.cuda.synchronize(self.prefetch_stream)
                 key_tensor = self.key_cache[layer_idx]
                 value_tensor = self.value_cache[layer_idx]
-
+                
                 # Prefetch the next layer
                 self.prefetch_layer((layer_idx + 1) % len(self))
             else:
@@ -58,13 +65,13 @@ def __getitem__(self, layer_idx: int) -> List[Tuple[torch.Tensor]]:
             return (key_tensor, value_tensor)
         else:
             raise KeyError(f"Cache only has {len(self)} layers, attempted to access layer with index {layer_idx}")
-
+        
     def update(
-            self,
-            key_states: torch.Tensor,
-            value_states: torch.Tensor,
-            layer_idx: int,
-            cache_kwargs: Optional[Dict[str, Any]] = None,
+        self,
+        key_states: torch.Tensor, 
+        value_states: torch.Tensor,
+        layer_idx: int,
+        cache_kwargs: Optional[Dict[str, Any]] = None,
     ) -> Tuple[torch.Tensor, torch.Tensor]:
         """
         Updates the cache with the new `key_states` and `value_states` for the layer `layer_idx`.
@@ -85,13 +92,13 @@ def update(
             raise ValueError("OffloadedCache does not support model usage where layers are skipped. Use DynamicCache.")
         elif len(self.key_cache) == layer_idx:
             # only cache the states for condition tokens
-            key_states = key_states[..., :-(self.num_tokens_for_img + 1), :]
-            value_states = value_states[..., :-(self.num_tokens_for_img + 1), :]
+            key_states = key_states[..., :-(self.num_tokens_for_img+1), :]
+            value_states = value_states[..., :-(self.num_tokens_for_img+1), :]
 
-            # Update the number of seen tokens
+             # Update the number of seen tokens
             if layer_idx == 0:
                 self._seen_tokens += key_states.shape[-2]
-
+                
             self.key_cache.append(key_states)
             self.value_cache.append(value_states)
             self.original_device.append(key_states.device)