fix from leejet/stable-diffusion.cpp#926

LostRuins · LostRuins · commit 7179e49aef4d · 2025-11-01T23:38:37.000+08:00
diff --git a/otherarch/sdcpp/stable-diffusion.cpp b/otherarch/sdcpp/stable-diffusion.cpp
@@ -2689,14 +2689,12 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
         sd_image_to_ggml_tensor(sd_img_gen_params->mask_image, mask_img);
         sd_image_to_ggml_tensor(sd_img_gen_params->init_image, init_img);
 
-        init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
-
         if (sd_version_is_inpaint(sd_ctx->sd->version)) {
             int64_t mask_channels = 1;
             if (sd_ctx->sd->version == VERSION_FLUX_FILL) {
-                mask_channels = 8 * 8;  // flatten the whole mask
+                mask_channels = vae_scale_factor * vae_scale_factor;  // flatten the whole mask
             } else if (sd_ctx->sd->version == VERSION_FLEX_2) {
-                mask_channels = 1 + init_latent->ne[2];
+                mask_channels = 1 + sd_ctx->sd->get_latent_channel();
             }
             ggml_tensor* masked_latent = nullptr;
 
@@ -2705,8 +2703,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
                 ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);
                 ggml_ext_tensor_apply_mask(init_img, mask_img, masked_img);
                 masked_latent = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
+                init_latent   = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
             } else {
                 // mask after vae
+                init_latent   = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
                 masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);
                 ggml_ext_tensor_apply_mask(init_latent, mask_img, masked_latent, 0.);
             }
@@ -2747,9 +2747,18 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
                         for (int k = 0; k < masked_latent->ne[2]; k++) {
                             ggml_ext_tensor_set_f32(concat_latent, 0, ix, iy, masked_latent->ne[2] + 1 + k);
                         }
+                    } else {
+                        float m = ggml_ext_tensor_get_f32(mask_img, mx, my);
+                        ggml_ext_tensor_set_f32(concat_latent, m, ix, iy, 0);
+                        for (int k = 0; k < masked_latent->ne[2];k++) {
+                            float v = ggml_ext_tensor_get_f32(masked_latent, ix, iy, k);
+                            ggml_ext_tensor_set_f32(concat_latent, v, ix, iy, k + mask_channels);
+                        }
                     }
                 }
             }
+        } else {
+            init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
         }
 
         {

Original file line number	Diff line number	Diff line change
`@@ -2689,14 +2689,12 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2689`	`2689`	`sd_image_to_ggml_tensor(sd_img_gen_params->mask_image, mask_img);`
`2690`	`2690`	`sd_image_to_ggml_tensor(sd_img_gen_params->init_image, init_img);`
`2691`	`2691`
`2692`		`- init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2693`		`-`
`2694`	`2692`	`if (sd_version_is_inpaint(sd_ctx->sd->version)) {`
`2695`	`2693`	`int64_t mask_channels = 1;`
`2696`	`2694`	`if (sd_ctx->sd->version == VERSION_FLUX_FILL) {`
`2697`		`- mask_channels = 8 * 8; // flatten the whole mask`
	`2695`	`+ mask_channels = vae_scale_factor * vae_scale_factor; // flatten the whole mask`
`2698`	`2696`	`} else if (sd_ctx->sd->version == VERSION_FLEX_2) {`
`2699`		`- mask_channels = 1 + init_latent->ne[2];`
	`2697`	`+ mask_channels = 1 + sd_ctx->sd->get_latent_channel();`
`2700`	`2698`	`}`
`2701`	`2699`	`ggml_tensor* masked_latent = nullptr;`
`2702`	`2700`
`@@ -2705,8 +2703,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2705`	`2703`	`ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);`
`2706`	`2704`	`ggml_ext_tensor_apply_mask(init_img, mask_img, masked_img);`
`2707`	`2705`	`masked_latent = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
	`2706`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2708`	`2707`	`} else {`
`2709`	`2708`	`// mask after vae`
	`2709`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2710`	`2710`	`masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);`
`2711`	`2711`	`ggml_ext_tensor_apply_mask(init_latent, mask_img, masked_latent, 0.);`
`2712`	`2712`	`}`
`@@ -2747,9 +2747,18 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2747`	`2747`	`for (int k = 0; k < masked_latent->ne[2]; k++) {`
`2748`	`2748`	`ggml_ext_tensor_set_f32(concat_latent, 0, ix, iy, masked_latent->ne[2] + 1 + k);`
`2749`	`2749`	`}`
	`2750`	`+ } else {`
	`2751`	`+ float m = ggml_ext_tensor_get_f32(mask_img, mx, my);`
	`2752`	`+ ggml_ext_tensor_set_f32(concat_latent, m, ix, iy, 0);`
	`2753`	`+ for (int k = 0; k < masked_latent->ne[2];k++) {`
	`2754`	`+ float v = ggml_ext_tensor_get_f32(masked_latent, ix, iy, k);`
	`2755`	`+ ggml_ext_tensor_set_f32(concat_latent, v, ix, iy, k + mask_channels);`
	`2756`	`+ }`
`2750`	`2757`	`}`
`2751`	`2758`	`}`
`2752`	`2759`	`}`
	`2760`	`+ } else {`
	`2761`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2753`	`2762`	`}`
`2754`	`2763`
`2755`	`2764`	`{`