Reverted joint_attention_kwargs default for consistency

guiyrt · guiyrt · commit 4383175d04b8 · 2024-12-09T14:26:20.000Z
diff --git a/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py b/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py
@@ -738,7 +738,7 @@ def __call__(
         ip_adapter_image_embeds: Optional[List[torch.Tensor]] = None,
         output_type: Optional[str] = "pil",
         return_dict: bool = True,
-        joint_attention_kwargs: Dict[str, Any] = {},
+        joint_attention_kwargs: Optional[Dict[str, Any]] = None,
         clip_skip: Optional[int] = None,
         callback_on_step_end: Optional[Callable[[int, int, Dict], None]] = None,
         callback_on_step_end_tensor_inputs: List[str] = ["latents"],
@@ -980,22 +980,22 @@ def __call__(
                     )
 
                     image_prompt_embeds = dict(
-                        ip_hidden_states = ip_hidden_states,
-                        temb = temb
+                        ip_hidden_states=ip_hidden_states,
+                        temb=temb
                     )
-                else:
-                    image_prompt_embeds = {}
+
+                    if self.joint_attention_kwargs is None:
+                        self._joint_attention_kwargs = image_prompt_embeds
+                    else:
+                        self._joint_attention_kwargs.update(**image_prompt_embeds)                        
 
                 noise_pred = self.transformer(
                     hidden_states=latent_model_input,
                     timestep=timestep,
                     encoder_hidden_states=prompt_embeds,
                     pooled_projections=pooled_prompt_embeds,
                     return_dict=False,
-                    joint_attention_kwargs={
-                        **image_prompt_embeds,
-                        **self.joint_attention_kwargs,                        
-                    }
+                    joint_attention_kwargs=self.joint_attention_kwargs,
                 )[0]
 
                 # perform guidance
@@ -1016,10 +1016,7 @@ def __call__(
                             timestep=timestep,
                             encoder_hidden_states=original_prompt_embeds,
                             pooled_projections=original_pooled_prompt_embeds,
-                            joint_attention_kwargs={
-                                **image_prompt_embeds,
-                                **self.joint_attention_kwargs,                        
-                            },
+                            joint_attention_kwargs=self.joint_attention_kwargs,
                             return_dict=False,
                             skip_layers=skip_guidance_layers,
                         )[0]