update

a-r-r-o-w · a-r-r-o-w · commit e92ee28aa453 · 2024-10-25T08:58:46.000+02:00
diff --git a/src/diffusers/models/activations.py b/src/diffusers/models/activations.py
@@ -137,7 +137,7 @@ class SwiGLU(nn.Module):
     def __init__(self, dim_in: int, dim_out: int, bias: bool = True, flip_gate: bool = False):
         super().__init__()
         self.flip_gate = flip_gate
-        
+
         self.proj = nn.Linear(dim_in, dim_out * 2, bias=bias)
         self.activation = nn.SiLU()
 
diff --git a/src/diffusers/models/transformers/transformer_mochi.py b/src/diffusers/models/transformers/transformer_mochi.py
@@ -249,7 +249,7 @@ def __init__(
         self.proj_out = nn.Linear(inner_dim, patch_size * patch_size * out_channels)
 
         self.gradient_checkpointing = False
-    
+
     def _set_gradient_checkpointing(self, module, value=False):
         if hasattr(module, "gradient_checkpointing"):
             module.gradient_checkpointing = value
@@ -287,7 +287,7 @@ def forward(
 
         for i, block in enumerate(self.transformer_blocks):
             if self.gradient_checkpointing:
-                
+
                 def create_custom_forward(module):
                     def custom_forward(*inputs):
                         return module(*inputs)
diff --git a/src/diffusers/models/transformers/transformer_mochi_original.py b/src/diffusers/models/transformers/transformer_mochi_original.py
@@ -619,7 +619,7 @@ def prepare_qkv(
         q_x, k_x, v_x = qkv_x.unbind(0)  # (B, N, local_h, head_dim)
         q_x = self.q_norm_x(q_x)
         k_x = self.k_norm_x(k_x)
-        
+
         q_x = apply_rotary_emb_qk_real(q_x, rope_cos, rope_sin)
         k_x = apply_rotary_emb_qk_real(k_x, rope_cos, rope_sin)
 
@@ -665,7 +665,7 @@ def run_attention(
         q = q.permute(1, 0, 2).unsqueeze(0)
         k = k.permute(1, 0, 2).unsqueeze(0)
         v = v.permute(1, 0, 2).unsqueeze(0)
-        
+
         out = F.scaled_dot_product_attention(q, k, v)
 
         out = out.transpose(1, 2).flatten(2, 3)