ip_adapter image embeds now considers num_images_per_prompt

guiyrt · guiyrt · commit ab0d90421917 · 2024-12-09T10:54:46.000Z
diff --git a/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py b/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py
@@ -695,42 +695,22 @@ def encode_image(self, image):
     def prepare_ip_adapter_image_embeds(
         self, ip_adapter_image, ip_adapter_image_embeds, device, num_images_per_prompt, do_classifier_free_guidance
     ):
-        # image_embeds = []
-
-        # if do_classifier_free_guidance:
-        #     negative_image_embeds = []
-
-        # if ip_adapter_image_embeds is None:
-        #         single_image_embeds, single_negative_image_embeds = self.encode_image(ip_adapter_image)
-        #         image_embeds.append(single_image_embeds[None, :])
-                
-        #         if do_classifier_free_guidance:
-        #             negative_image_embeds.append(single_negative_image_embeds[None, :])
-        # else:
-        #     for single_image_embeds in ip_adapter_image_embeds:
-        #         if do_classifier_free_guidance:
-        #             single_negative_image_embeds, single_image_embeds = single_image_embeds.chunk(2)
-        #             negative_image_embeds.append(single_negative_image_embeds)
-        #         image_embeds.append(single_image_embeds)
-
-        # ip_adapter_image_embeds = []
-        # for i, single_image_embeds in enumerate(image_embeds):
-        #     single_image_embeds = torch.cat([single_image_embeds] * num_images_per_prompt, dim=0)
-            
-        #     if do_classifier_free_guidance:
-        #         single_negative_image_embeds = torch.cat([negative_image_embeds[i]] * num_images_per_prompt, dim=0)
-        #         single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds], dim=0)
-
-        #     single_image_embeds = single_image_embeds.to(device=device)
-        #     ip_adapter_image_embeds.append(single_image_embeds)
-
-
-        # Single image only :/
-        clip_image_tensor = self.feature_extractor(images=ip_adapter_image, return_tensors="pt").pixel_values
-        clip_image_tensor = clip_image_tensor.to(device, dtype=self.dtype)
-        clip_image_embeds = self.image_encoder(clip_image_tensor, output_hidden_states=True).hidden_states[-2]
+        if ip_adapter_image_embeds is None:
+                single_image_embeds, single_negative_image_embeds = self.encode_image(ip_adapter_image)
+        else:
+            for single_image_embeds in ip_adapter_image_embeds:
+                if do_classifier_free_guidance:
+                    single_negative_image_embeds, single_image_embeds = single_image_embeds.chunk(2)
+                else:
+                    single_image_embeds = ip_adapter_image_embeds
+
+        single_image_embeds = torch.cat([single_image_embeds] * num_images_per_prompt, dim=0)
         
-        return torch.cat([torch.zeros_like(clip_image_embeds), clip_image_embeds], dim=0)
+        if do_classifier_free_guidance:
+            single_negative_image_embeds = torch.cat([single_negative_image_embeds] * num_images_per_prompt, dim=0)
+            single_image_embeds = torch.cat([single_negative_image_embeds, single_image_embeds], dim=0)
+
+        return single_image_embeds.to(device=device)
         
     @torch.no_grad()
     @replace_example_docstring(EXAMPLE_DOC_STRING)