modelscope
diff --git a/‎diffsynth_engine/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎diffsynth_engine/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎diffsynth_engine/algorithm/noise_scheduler/flow_match/recifited_flow.py‎
Lines changed: 16 additions & 14 deletions b/‎diffsynth_engine/algorithm/noise_scheduler/flow_match/recifited_flow.py‎
Lines changed: 16 additions & 14 deletions
diff --git a/‎diffsynth_engine/algorithm/noise_scheduler/stable_diffusion/ddim.py‎
Lines changed: 0 additions & 3 deletions b/‎diffsynth_engine/algorithm/noise_scheduler/stable_diffusion/ddim.py‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎diffsynth_engine/algorithm/noise_scheduler/stable_diffusion/sgm_uniform.py‎
Lines changed: 0 additions & 3 deletions b/‎diffsynth_engine/algorithm/noise_scheduler/stable_diffusion/sgm_uniform.py‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎diffsynth_engine/algorithm/sampler/flow_match/flow_match_euler.py‎
Lines changed: 1 addition & 1 deletion b/‎diffsynth_engine/algorithm/sampler/flow_match/flow_match_euler.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎diffsynth_engine/kernels/__init__.py‎ b/‎diffsynth_engine/kernels/__init__.py‎
diff --git a/‎diffsynth_engine/models/basic/attention.py‎
Lines changed: 117 additions & 100 deletions b/‎diffsynth_engine/models/basic/attention.py‎
Lines changed: 117 additions & 100 deletions
diff --git a/‎diffsynth_engine/models/basic/unet_helper.py‎
Lines changed: 2 additions & 2 deletions b/‎diffsynth_engine/models/basic/unet_helper.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎diffsynth_engine/models/components/vae.py‎
Lines changed: 0 additions & 1 deletion b/‎diffsynth_engine/models/components/vae.py‎
Lines changed: 0 additions & 1 deletion
@@ -10,6 +10,7 @@
 )
 from .utils.download import fetch_model, fetch_modelscope_model, fetch_civitai_model
 from .utils.video import load_video, save_video
+
 __all__ = [
     "FluxImagePipeline",
     "SDXLImagePipeline",
@@ -22,4 +23,6 @@
     "fetch_model",
     "fetch_modelscope_model",
     "fetch_civitai_model",
+    "load_video",
+    "save_video",
 ]
@@ -5,18 +5,19 @@
 
 
 class RecifitedFlowScheduler(BaseScheduler):
-    def __init__(self, 
-        shift=1.0, 
-        sigma_min=0.001, 
+    def __init__(
+        self,
+        shift=1.0,
+        sigma_min=0.001,
         sigma_max=1.0,
-        num_train_timesteps=1000, 
+        num_train_timesteps=1000,
         use_dynamic_shifting=False,
     ):
         self.shift = shift
         self.sigma_min = sigma_min
         self.sigma_max = sigma_max
-        self.num_train_timesteps = num_train_timesteps        
-        self.use_dynamic_shifting = use_dynamic_shifting        
+        self.num_train_timesteps = num_train_timesteps
+        self.use_dynamic_shifting = use_dynamic_shifting
 
     def _sigma_to_t(self, sigma):
         return sigma * self.num_train_timesteps
@@ -30,19 +31,20 @@ def _time_shift(self, mu: float, sigma: float, t: torch.Tensor):
     def _shift_sigma(self, sigma: torch.Tensor, shift: float):
         return shift * sigma / (1 + (shift - 1) * sigma)
 
-    def schedule(self, 
-                 num_inference_steps: int, 
-                 mu: float | None = None, 
-                 sigma_min: float | None = None, 
-                 sigma_max: float | None = None
+    def schedule(
+        self,
+        num_inference_steps: int,
+        mu: float | None = None,
+        sigma_min: float | None = None,
+        sigma_max: float | None = None,
     ):
         sigma_min = self.sigma_min if sigma_min is None else sigma_min
-        sigma_max = self.sigma_max if sigma_max is None else sigma_max        
+        sigma_max = self.sigma_max if sigma_max is None else sigma_max
         sigmas = torch.linspace(sigma_max, sigma_min, num_inference_steps)
         if self.use_dynamic_shifting:
-            sigmas = self._time_shift(mu, 1.0, sigmas)            # FLUX
+            sigmas = self._time_shift(mu, 1.0, sigmas)  # FLUX
         else:
             sigmas = self._shift_sigma(sigmas, self.shift)
         timesteps = sigmas * self.num_train_timesteps
         sigmas = append_zero(sigmas)
-        return sigmas, timesteps
+        return sigmas, timesteps
@@ -1,7 +1,4 @@
 import torch
-from .linear import ScaledLinearScheduler
-from ..base_scheduler import append_zero
-import numpy as np
 
 from diffsynth_engine.algorithm.noise_scheduler.stable_diffusion.linear import ScaledLinearScheduler
 from diffsynth_engine.algorithm.noise_scheduler.base_scheduler import append_zero
 
@@ -1,7 +1,4 @@
 import torch
-from .linear import ScaledLinearScheduler
-from ..base_scheduler import append_zero
-import numpy as np
 
 from diffsynth_engine.algorithm.noise_scheduler.stable_diffusion.linear import ScaledLinearScheduler
 from diffsynth_engine.algorithm.noise_scheduler.base_scheduler import append_zero
 
@@ -2,7 +2,7 @@
 
 
 class FlowMatchEulerSampler:
-    def initialize(self, init_latents, timesteps, sigmas, mask=None):        
+    def initialize(self, init_latents, timesteps, sigmas, mask=None):
         self.init_latents = init_latents
         self.timesteps = timesteps
         self.sigmas = sigmas
 
@@ -1,12 +1,115 @@
 import torch
 import torch.nn as nn
 from einops import rearrange
-
+from typing import Optional
 from diffsynth_engine.utils import logging
+from diffsynth_engine.utils.flag import (
+    FLASH_ATTN_3_AVAILABLE,
+    FLASH_ATTN_2_AVAILABLE,
+    XFORMERS_AVAILABLE,
+    SDPA_AVAILABLE,
+    SAGE_ATTN_AVAILABLE,
+    SPARGE_ATTN_AVAILABLE,
+)
+
+if FLASH_ATTN_3_AVAILABLE:
+    from flash_attn_interface import flash_attn_func as flash_attn3
+if FLASH_ATTN_2_AVAILABLE:
+    from flash_attn import flash_attn_func as flash_attn2
+if XFORMERS_AVAILABLE:
+    import xformers.ops.memory_efficient_attention as xformers_attn
+if SDPA_AVAILABLE:
+
+    def sdpa_attn(q, k, v, attn_mask=None, scale=None):
+        q = q.transpose(1, 2)
+        k = k.transpose(1, 2)
+        v = v.transpose(1, 2)
+        out = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=attn_mask, scale=scale)
+        return out.transpose(1, 2)
+
+
+if SAGE_ATTN_AVAILABLE:
+    from sageattention import sageattn
+
+    def sage_attn(q, k, v, attn_mask=None, scale=None):
+        q = q.transpose(1, 2)
+        k = k.transpose(1, 2)
+        v = v.transpose(1, 2)
+        out = sageattn(q, k, v, attn_mask=attn_mask, sm_scale=scale)
+        return out.transpose(1, 2)
+
+
+if SPARGE_ATTN_AVAILABLE:
+    from spas_sage_attn import spas_sage2_attn_meansim_cuda
+
+    def sparge_attn(self, q, k, v, attn_mask=None, scale=None):
+        q = q.transpose(1, 2)
+        k = k.transpose(1, 2)
+        v = v.transpose(1, 2)
+        out = spas_sage2_attn_meansim_cuda(q, k, v, attn_mask=attn_mask, scale=scale)
+        return out.transpose(1, 2)
+
 
 logger = logging.get_logger(__name__)
 
 
+def eager_attn(query, key, value, attn_mask=None, scale=None):
+    scale = 1 / query.shape[-1] ** 0.5 if scale is None else scale
+    query = query * scale
+    attn = torch.matmul(query, key.transpose(-2, -1))
+    if attn_mask is not None:
+        attn = attn + attn_mask
+    attn = attn.softmax(-1)
+    return attn @ value
+
+
+def attention(q, k, v, attn_mask=None, attn_impl: Optional[str] = None, scale: Optional[float] = None):
+    """
+    q: [B, Lq, Nq, C1]
+    k: [B, Lk, Nk, C1]
+    v: [B, Lk, Nk, C2]
+    """
+    assert attn_impl in [
+        None,
+        "auto",
+        "eager",
+        "flash_attn_2",
+        "flash_attn_3",
+        "xformers",
+        "sdpa",
+        "sage_attn",
+        "sparge_attn",
+    ]
+    if attn_impl is None or attn_impl == "auto":
+        if FLASH_ATTN_3_AVAILABLE:
+            return flash_attn3(q, k, v, softmax_scale=scale)
+        elif FLASH_ATTN_2_AVAILABLE:
+            return flash_attn2(q, k, v, softmax_scale=scale)
+        elif XFORMERS_AVAILABLE:
+            return xformers_attn(q, k, v, attn_bias=attn_mask, scale=scale)
+        elif SDPA_AVAILABLE:
+            return sdpa_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+        else:
+            return eager_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+    else:
+        if attn_impl == "eager":
+            return eager_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+        elif attn_impl == "flash_attn_3":
+            return flash_attn3(q, k, v, softmax_scale=scale)
+        elif attn_impl == "flash_attn_2":
+            return flash_attn2(q, k, v, softmax_scale=scale)
+        elif attn_impl == "xformers":
+            return xformers_attn(q, k, v, attn_bias=attn_mask, scale=scale)
+        elif attn_impl == "sdpa":
+            return sdpa_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+        elif attn_impl == "sage_attn":
+            return sage_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+        elif attn_impl == "sparge_attn":
+            return sparge_attn(q, k, v, attn_mask=attn_mask, scale=scale)
+        else:
+            raise ValueError(f"Invalid attention implementation: {attn_impl}")
+
+
 class Attention(nn.Module):
     def __init__(
         self,
@@ -18,7 +121,7 @@ def __init__(
         bias_kv=False,
         bias_out=False,
         scale=None,
-        attn_implementation: str = "sdpa",
+        attn_impl: Optional[str] = None,
         device: str = "cuda:0",
         dtype: torch.dtype = torch.float16,
     ):
@@ -32,106 +135,20 @@ def __init__(
         self.to_k = nn.Linear(kv_dim, dim_inner, bias=bias_kv, device=device, dtype=dtype)
         self.to_v = nn.Linear(kv_dim, dim_inner, bias=bias_kv, device=device, dtype=dtype)
         self.to_out = nn.Linear(dim_inner, q_dim, bias=bias_out, device=device, dtype=dtype)
-
+        self.attn_impl = attn_impl
         self.scale = scale
-        self.attn_implementation = self._get_actual_attn_implementation(attn_implementation)
-
-    @staticmethod
-    def _get_actual_attn_implementation(attn_implementation):
-        supported_implementations = ("xformers", "sdpa", "eager")
-        if attn_implementation not in supported_implementations:
-            raise ValueError(
-                f"attn_implementation must be one of {supported_implementations}, but got '{attn_implementation}'"
-            )
-
-        actual_implementation = "eager" if attn_implementation == "eager" else ""
-        if attn_implementation == "xformers":
-            try:
-                from xformers.ops import memory_efficient_attention
-
-                actual_implementation = "xformers"
-            except ImportError:
-                pass
-        if not actual_implementation or attn_implementation == "sdpa":
-            use_mps = torch.backends.mps.is_available()
-            if hasattr(torch.nn.functional, "scaled_dot_product_attention") and not use_mps:
-                actual_implementation = "sdpa"
-
-        if actual_implementation != attn_implementation:
-            warning_msg = (
-                "xformers is not supported on this platform"
-                if attn_implementation == "xformers"
-                else "torch.nn.functional.scaled_dot_product_attention is not supported"
-            )
-            logger.warning(f"{warning_msg}, fallback to '{actual_implementation}' attention")
-        return actual_implementation
-
-    def sdpa_attn(self, hidden_states, encoder_hidden_states, attn_mask=None):
-        q = self.to_q(hidden_states)
-        k = self.to_k(encoder_hidden_states)
-        v = self.to_v(encoder_hidden_states)
-
-        q = rearrange(q, "b s (n d) -> b n s d", n=self.num_heads)
-        k = rearrange(k, "b s (n d) -> b n s d", n=self.num_heads)
-        v = rearrange(v, "b s (n d) -> b n s d", n=self.num_heads)
-
-        hidden_states = nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=attn_mask, scale=self.scale)
-        hidden_states = rearrange(hidden_states, "b n s d -> b s (n d)", n=self.num_heads)
-        hidden_states = hidden_states.to(q.dtype)
-        hidden_states = self.to_out(hidden_states)
-        return hidden_states
-
-    def xformers_attn(self, hidden_states, encoder_hidden_states, attn_mask=None):
-        import xformers.ops as xops
-
-        q = self.to_q(hidden_states)
-        k = self.to_k(encoder_hidden_states)
-        v = self.to_v(encoder_hidden_states)
-        q = rearrange(q, "b s (n d) -> b s n d", n=self.num_heads)
-        k = rearrange(k, "b s (n d) -> b s n d", n=self.num_heads)
-        v = rearrange(v, "b s (n d) -> b s n d", n=self.num_heads)
-
-        hidden_states = xops.memory_efficient_attention(q, k, v, attn_bias=attn_mask, scale=self.scale)
-        hidden_states = rearrange(hidden_states, "b s n d -> b s (n d)")
-        hidden_states = hidden_states.to(q.dtype)
-        hidden_states = self.to_out(hidden_states)
-        return hidden_states
-
-    def eager_attn(self, hidden_states, encoder_hidden_states, attn_mask=None):
-        q = self.to_q(hidden_states)
-        k = self.to_k(encoder_hidden_states)
-        v = self.to_v(encoder_hidden_states)
-        q = rearrange(q, "b s (n d) -> b n s d", n=self.num_heads)
-        k = rearrange(k, "b s (n d) -> b n s d", n=self.num_heads)
-        v = rearrange(v, "b s (n d) -> b n s d", n=self.num_heads)
-
-        hidden_states = self._eager_attn(q, k, v, attn_bias=attn_mask, scale=self.scale)
-        hidden_states = rearrange(hidden_states, "b n s d -> b s (n d)", n=self.num_heads)
-        hidden_states = hidden_states.to(q.dtype)
-        hidden_states = self.to_out(hidden_states)
-        return hidden_states
-
-    @staticmethod
-    def _eager_attn(query, key, value, attn_bias=None, scale=None):
-        scale = 1 / query.shape[-1] ** 0.5 if scale is None else scale
-        query = query * scale
-        attn = torch.matmul(query, key.transpose(-2, -1))
-        if attn_bias is not None:
-            attn = attn + attn_bias
-        attn = attn.softmax(-1)
-        return attn @ value
 
     def forward(
         self,
-        hidden_states,
-        encoder_hidden_states=None,
-        attn_mask=None,
+        x: torch.Tensor,
+        y: Optional[torch.Tensor] = None,
+        attn_mask: Optional[torch.Tensor] = None,
     ):
-        if encoder_hidden_states is None:
-            encoder_hidden_states = hidden_states
-
-        if self.attn_implementation == "xformers":
-            return self.xformers_attn(hidden_states, encoder_hidden_states, attn_mask)
-        if self.attn_implementation == "sdpa":
-            return self.sdpa_attn(hidden_states, encoder_hidden_states, attn_mask)
-        return self.eager_attn(hidden_states, encoder_hidden_states, attn_mask)
+        if y is None:
+            y = x
+        q = rearrange(self.to_q(x), "b s (n d) -> b s n d", n=self.num_heads)
+        k = rearrange(self.to_k(y), "b s (n d) -> b s n d", n=self.num_heads)
+        v = rearrange(self.to_v(y), "b s (n d) -> b s n d", n=self.num_heads)
+        out = attention(q, k, v, attn_mask=attn_mask, attn_impl=self.attn_impl, scale=self.scale)
+        out = rearrange(out, "b s n d -> b s (n d)", n=self.num_heads)
+        return self.to_out(out)
@@ -51,12 +51,12 @@ def __init__(
     def forward(self, hidden_states, encoder_hidden_states):
         # 1. Self-Attention
         norm_hidden_states = self.norm1(hidden_states)
-        attn_output = self.attn1(norm_hidden_states, encoder_hidden_states=None)
+        attn_output = self.attn1(norm_hidden_states)
         hidden_states = attn_output + hidden_states
 
         # 2. Cross-Attention
         norm_hidden_states = self.norm2(hidden_states)
-        attn_output = self.attn2(norm_hidden_states, encoder_hidden_states=encoder_hidden_states)
+        attn_output = self.attn2(norm_hidden_states, y=encoder_hidden_states)
         hidden_states = attn_output + hidden_states
 
         # 3. Feed-forward
 
@@ -86,7 +86,6 @@ def __init__(
                     bias_q=True,
                     bias_kv=True,
                     bias_out=True,
-                    attn_implementation="xformers",
                     device=device,
                     dtype=dtype,
                 )
Original file line number	Diff line number	Diff line change
`@@ -10,6 +10,7 @@`
`10`	`10`	`)`
`11`	`11`	`from .utils.download import fetch_model, fetch_modelscope_model, fetch_civitai_model`
`12`	`12`	`from .utils.video import load_video, save_video`
	`13`	`+`
`13`	`14`	`__all__ = [`
`14`	`15`	`"FluxImagePipeline",`
`15`	`16`	`"SDXLImagePipeline",`
`@@ -22,4 +23,6 @@`
`22`	`23`	`"fetch_model",`
`23`	`24`	`"fetch_modelscope_model",`
`24`	`25`	`"fetch_civitai_model",`
	`26`	`+ "load_video",`
	`27`	`+ "save_video",`
`25`	`28`	`]`
Original file line number	Diff line number	Diff line change
`@@ -86,7 +86,6 @@ def __init__(`
`86`	`86`	`bias_q=True,`
`87`	`87`	`bias_kv=True,`
`88`	`88`	`bias_out=True,`
`89`		`- attn_implementation="xformers",`
`90`	`89`	`device=device,`
`91`	`90`	`dtype=dtype,`
`92`	`91`	`)`