Don't use biases for input projs and output AdaNorm

dg845 · dg845 · commit a200780fa7e6 · 2025-11-15T07:44:57.000+01:00
diff --git a/src/diffusers/models/transformers/transformer_flux2.py b/src/diffusers/models/transformers/transformer_flux2.py
@@ -641,8 +641,8 @@ def __init__(
         self.single_stream_modulation = Flux2Modulation(self.inner_dim, mod_param_sets=1, bias=False)
 
         # 4. Input projections
-        self.x_embedder = nn.Linear(in_channels, self.inner_dim)
-        self.context_embedder = nn.Linear(joint_attention_dim, self.inner_dim)
+        self.x_embedder = nn.Linear(in_channels, self.inner_dim, bias=False)
+        self.context_embedder = nn.Linear(joint_attention_dim, self.inner_dim, bias=False)
 
         # 5. Double Stream Transformer Blocks
         self.transformer_blocks = nn.ModuleList(
@@ -675,7 +675,9 @@ def __init__(
         )
 
         # 7. Output layers
-        self.norm_out = AdaLayerNormContinuous(self.inner_dim, self.inner_dim, elementwise_affine=False, eps=eps)
+        self.norm_out = AdaLayerNormContinuous(
+            self.inner_dim, self.inner_dim, elementwise_affine=False, eps=eps, bias=False
+        )
         self.proj_out = nn.Linear(self.inner_dim, patch_size * patch_size * self.out_channels, bias=False)
 
         self.gradient_checkpointing = False