Improve the performance and suitable for NPU

蒋硕 · 蒋硕 · commit 0ef20e732b3d · 2024-10-11T09:55:38.000+08:00
diff --git a/src/diffusers/models/attention_processor.py b/src/diffusers/models/attention_processor.py
@@ -2274,7 +2274,8 @@ def __call__(
                 query, key, value, attn_mask=attention_mask, dropout_p=0.0, is_causal=False
             )
 
-        hidden_states = hidden_states.transpose(1, 2).reshape(batch_size, -1, attn.heads * head_dim).to(query.dtype)
+        hidden_states = hidden_states.transpose(1, 2).reshape(batch_size, -1, attn.heads * head_dim)
+        hidden_states = hidden_states.to(query.dtype)
 
         # linear proj
         hidden_states = attn.to_out[0](hidden_states)
@@ -4276,7 +4277,6 @@ def __init__(self):
 CROSS_ATTENTION_PROCESSORS = (
     AttnProcessor,
     AttnProcessor2_0,
-    AttnProcessorNPU,
     XFormersAttnProcessor,
     SlicedAttnProcessor,
     IPAdapterAttnProcessor,
@@ -4286,7 +4286,6 @@ def __init__(self):
 AttentionProcessor = Union[
     AttnProcessor,
     AttnProcessor2_0,
-    AttnProcessorNPU,
     FusedAttnProcessor2_0,
     XFormersAttnProcessor,
     SlicedAttnProcessor,
@@ -4301,4 +4300,4 @@ def __init__(self):
     PAGIdentitySelfAttnProcessor2_0,
     PAGCFGHunyuanAttnProcessor2_0,
     PAGHunyuanAttnProcessor2_0,
-]
+]