fix controlnet device

Glaceon-Hyy · Glaceon-Hyy · commit da913d6ca6a7 · 2025-07-03T10:37:29.000+08:00
diff --git a/diffsynth_engine/models/sd/sd_controlnet.py b/diffsynth_engine/models/sd/sd_controlnet.py
@@ -15,17 +15,17 @@
 )
 
 class ControlNetConditioningLayer(nn.Module):
-    def __init__(self, channels = (3, 16, 32, 96, 256, 320)):
+    def __init__(self, channels = (3, 16, 32, 96, 256, 320), device = "cuda:0", dtype=torch.float16):
         super().__init__()
         self.blocks = torch.nn.ModuleList([])
-        self.blocks.append(torch.nn.Conv2d(channels[0], channels[1], kernel_size=3, padding=1))
+        self.blocks.append(torch.nn.Conv2d(channels[0], channels[1], kernel_size=3, padding=1, device=device, dtype=dtype))
         self.blocks.append(torch.nn.SiLU())
         for i in range(1, len(channels) - 2):
-            self.blocks.append(torch.nn.Conv2d(channels[i], channels[i], kernel_size=3, padding=1))
+            self.blocks.append(torch.nn.Conv2d(channels[i], channels[i], kernel_size=3, padding=1, device=device, dtype=dtype))
             self.blocks.append(torch.nn.SiLU())
-            self.blocks.append(torch.nn.Conv2d(channels[i], channels[i+1], kernel_size=3, padding=1, stride=2))
+            self.blocks.append(torch.nn.Conv2d(channels[i], channels[i+1], kernel_size=3, padding=1, stride=2, device=device, dtype=dtype))
             self.blocks.append(torch.nn.SiLU())
-        self.blocks.append(torch.nn.Conv2d(channels[-2], channels[-1], kernel_size=3, padding=1))
+        self.blocks.append(torch.nn.Conv2d(channels[-2], channels[-1], kernel_size=3, padding=1, device=device, dtype=dtype))
 
     def forward(self, conditioning):
         for block in self.blocks:
@@ -496,64 +496,64 @@ def __init__(
     ):
         super().__init__()
         self.time_embedding = TimestepEmbeddings(dim_in=320, dim_out=1280, device=device, dtype=dtype)
-        self.conv_in = torch.nn.Conv2d(4, 320, kernel_size=3, padding=1)
+        self.conv_in = torch.nn.Conv2d(4, 320, kernel_size=3, padding=1, device=device, dtype=dtype)
 
-        self.controlnet_conv_in = ControlNetConditioningLayer(channels=(3, 16, 32, 96, 256, 320))
+        self.controlnet_conv_in = ControlNetConditioningLayer(channels=(3, 16, 32, 96, 256, 320), device=device, dtype=dtype)
 
         self.blocks = torch.nn.ModuleList([
             # CrossAttnDownBlock2D
-            ResnetBlock(320, 320, 1280),
-            AttentionBlock(8, 40, 320, 1, 768),
+            ResnetBlock(320, 320, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 40, 320, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(320, 320, 1280),
-            AttentionBlock(8, 40, 320, 1, 768),
+            ResnetBlock(320, 320, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 40, 320, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            DownSampler(320),
+            DownSampler(320, device=device, dtype=dtype),
             PushBlock(),
             # CrossAttnDownBlock2D
-            ResnetBlock(320, 640, 1280),
-            AttentionBlock(8, 80, 640, 1, 768),
+            ResnetBlock(320, 640, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 80, 640, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(640, 640, 1280),
-            AttentionBlock(8, 80, 640, 1, 768),
+            ResnetBlock(640, 640, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 80, 640, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            DownSampler(640),
+            DownSampler(640, device=device, dtype=dtype),
             PushBlock(),
             # CrossAttnDownBlock2D
-            ResnetBlock(640, 1280, 1280),
-            AttentionBlock(8, 160, 1280, 1, 768),
+            ResnetBlock(640, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 160, 1280, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(1280, 1280, 1280),
-            AttentionBlock(8, 160, 1280, 1, 768),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 160, 1280, 1, 768, device=device, dtype=dtype),
             PushBlock(),
-            DownSampler(1280),
+            DownSampler(1280, device=device, dtype=dtype),
             PushBlock(),
             # DownBlock2D
-            ResnetBlock(1280, 1280, 1280),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(1280, 1280, 1280),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
             PushBlock(),
             # UNetMidBlock2DCrossAttn
-            ResnetBlock(1280, 1280, 1280),
-            AttentionBlock(8, 160, 1280, 1, 768),
-            ResnetBlock(1280, 1280, 1280),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(8, 160, 1280, 1, 768, device=device, dtype=dtype),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
             PushBlock()
         ])
 
         self.controlnet_blocks = torch.nn.ModuleList([
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1)),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1)),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1)),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), bias=False, device=device, dtype=dtype),
         ])
 
     def forward(
diff --git a/diffsynth_engine/models/sdxl/sdxl_controlnet.py b/diffsynth_engine/models/sdxl/sdxl_controlnet.py
@@ -22,17 +22,17 @@ def forward(self, x: torch.Tensor):
 
 class ResidualAttentionBlock(torch.nn.Module):
 
-    def __init__(self, d_model: int, n_head: int, attn_mask: torch.Tensor = None):
+    def __init__(self, d_model: int, n_head: int, attn_mask: torch.Tensor = None, device="cuda:0", dtype=torch.float16):
         super().__init__()
 
-        self.attn = torch.nn.MultiheadAttention(d_model, n_head)
-        self.ln_1 = torch.nn.LayerNorm(d_model)
+        self.attn = torch.nn.MultiheadAttention(d_model, n_head, device=device, dtype=dtype)
+        self.ln_1 = torch.nn.LayerNorm(d_model, device=device, dtype=dtype)
         self.mlp = torch.nn.Sequential(OrderedDict([
-            ("c_fc", torch.nn.Linear(d_model, d_model * 4)),
+            ("c_fc", torch.nn.Linear(d_model, d_model * 4, device=device, dtype=dtype)),
             ("gelu", QuickGELU()),
-            ("c_proj", torch.nn.Linear(d_model * 4, d_model))
+            ("c_proj", torch.nn.Linear(d_model * 4, d_model, device=device, dtype=dtype))
         ]))
-        self.ln_2 = torch.nn.LayerNorm(d_model)
+        self.ln_2 = torch.nn.LayerNorm(d_model, device=device, dtype=dtype)
         self.attn_mask = attn_mask
 
     def attention(self, x: torch.Tensor):
@@ -162,65 +162,65 @@ def __init__(self,
 
         self.add_time_proj = TemporalTimesteps(256, flip_sin_to_cos=True, downscale_freq_shift=0, device=device, dtype=dtype)
         self.add_time_embedding = torch.nn.Sequential(
-            torch.nn.Linear(2816, 1280),
+            torch.nn.Linear(2816, 1280, device=device, dtype=dtype),
             torch.nn.SiLU(),
-            torch.nn.Linear(1280, 1280)
+            torch.nn.Linear(1280, 1280, device=device, dtype=dtype)
         )
         self.control_type_proj = TemporalTimesteps(256, flip_sin_to_cos=True, downscale_freq_shift=0, device=device, dtype=dtype)
         self.control_type_embedding = torch.nn.Sequential(
-            torch.nn.Linear(256 * 8, 1280),
+            torch.nn.Linear(256 * 8, 1280, device=device, dtype=dtype),
             torch.nn.SiLU(),
-            torch.nn.Linear(1280, 1280)
+            torch.nn.Linear(1280, 1280, device=device, dtype=dtype)
         )
-        self.conv_in = torch.nn.Conv2d(4, 320, kernel_size=3, padding=1)
+        self.conv_in = torch.nn.Conv2d(4, 320, kernel_size=3, padding=1, device=device, dtype=dtype)
 
-        self.controlnet_conv_in = ControlNetConditioningLayer(channels=(3, 16, 32, 96, 256, 320))
-        self.controlnet_transformer = ResidualAttentionBlock(320, 8)
+        self.controlnet_conv_in = ControlNetConditioningLayer(channels=(3, 16, 32, 96, 256, 320), device=device, dtype=dtype)
+        self.controlnet_transformer = ResidualAttentionBlock(320, 8, device=device, dtype=dtype)
         self.task_embedding = torch.nn.Parameter(torch.randn(8, 320))
-        self.spatial_ch_projs = torch.nn.Linear(320, 320)
+        self.spatial_ch_projs = torch.nn.Linear(320, 320, device=device, dtype=dtype)
 
         self.blocks = torch.nn.ModuleList([
             # DownBlock2D
-            ResnetBlock(320, 320, 1280),
+            ResnetBlock(320, 320, 1280, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(320, 320, 1280),
+            ResnetBlock(320, 320, 1280, device=device, dtype=dtype),
             PushBlock(),
-            DownSampler(320),
+            DownSampler(320, device=device, dtype=dtype),
             PushBlock(),
             # CrossAttnDownBlock2D
-            ResnetBlock(320, 640, 1280),
-            AttentionBlock(10, 64, 640, 2, 2048),
+            ResnetBlock(320, 640, 1280, device=device, dtype=dtype),
+            AttentionBlock(10, 64, 640, 2, 2048, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(640, 640, 1280),
-            AttentionBlock(10, 64, 640, 2, 2048),
+            ResnetBlock(640, 640, 1280, device=device, dtype=dtype),
+            AttentionBlock(10, 64, 640, 2, 2048, device=device, dtype=dtype),
             PushBlock(),
-            DownSampler(640),
+            DownSampler(640, device=device, dtype=dtype),
             PushBlock(),
             # CrossAttnDownBlock2D
-            ResnetBlock(640, 1280, 1280),
-            AttentionBlock(20, 64, 1280, 10, 2048),
+            ResnetBlock(640, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(20, 64, 1280, 10, 2048, device=device, dtype=dtype),
             PushBlock(),
-            ResnetBlock(1280, 1280, 1280),
-            AttentionBlock(20, 64, 1280, 10, 2048),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(20, 64, 1280, 10, 2048, device=device, dtype=dtype),
             PushBlock(),
             # UNetMidBlock2DCrossAttn
-            ResnetBlock(1280, 1280, 1280),
-            AttentionBlock(20, 64, 1280, 10, 2048),
-            ResnetBlock(1280, 1280, 1280),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
+            AttentionBlock(20, 64, 1280, 10, 2048, device=device, dtype=dtype),
+            ResnetBlock(1280, 1280, 1280, device=device, dtype=dtype),
             PushBlock()
         ])
 
         self.controlnet_blocks = torch.nn.ModuleList([
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1)),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1)),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1)),
-            torch.nn.Conv2d(320, 320, kernel_size=(1, 1)),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1)),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1)),
-            torch.nn.Conv2d(640, 640, kernel_size=(1, 1)),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1)),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1)),
-            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1)),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(320, 320, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(640, 640, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), device=device, dtype=dtype),
+            torch.nn.Conv2d(1280, 1280, kernel_size=(1, 1), device=device, dtype=dtype),
         ])
 
         # 0 -- openpose
diff --git a/diffsynth_engine/pipelines/sdxl_image.py b/diffsynth_engine/pipelines/sdxl_image.py
@@ -452,7 +452,6 @@ def __call__(
 
         # ControlNet
         controlnet_params = self.prepare_controlnet_params(controlnet_params, h=height, w=width)
-
         # Encode prompts
         self.load_models_to_device(["text_encoder", "text_encoder_2"])
         positive_prompt_emb, positive_add_text_embeds = self.encode_prompt(prompt, clip_skip=clip_skip)