Remove the Q->ne[1] > 8 check

hjc4869 · hjc4869 · commit 5d4ab04cf45a · 2025-02-25T22:41:56.000+08:00
diff --git a/ggml/src/ggml-cuda/fattn-wmma-f16.cu b/ggml/src/ggml-cuda/fattn-wmma-f16.cu
@@ -578,10 +578,10 @@ void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, ggml_ten
         return;
     }
 
+#if !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__))
     if (Q->ne[1] <= 8 && Q->ne[0] % WARP_SIZE == 0) {
         constexpr int cols_per_block = 8;
         switch (Q->ne[0]) {
-#if !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__))
             case 64:
                 ggml_cuda_flash_attn_ext_wmma_f16_case< 64, cols_per_block, half>(ctx, dst);
                 break;
@@ -594,13 +594,13 @@ void ggml_cuda_flash_attn_ext_wmma_f16(ggml_backend_cuda_context & ctx, ggml_ten
             case 256:
                 ggml_cuda_flash_attn_ext_wmma_f16_case<256, cols_per_block, half>(ctx, dst);
                 break;
-#endif // !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__))
             default:
                 GGML_ABORT("fatal error");
                 break;
         }
         return;
     }
+#endif // !(defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__))
 
     if (Q->ne[1] <= 32) {
         constexpr int cols_per_block = 16;
diff --git a/ggml/src/ggml-cuda/fattn.cu b/ggml/src/ggml-cuda/fattn.cu
@@ -254,7 +254,7 @@ void ggml_cuda_flash_attn_ext(ggml_backend_cuda_context & ctx, ggml_tensor * dst
 
     if (cc >= GGML_CUDA_CC_OFFSET_AMD) {
 #if defined(GGML_HIP_ROCWMMA_FATTN)
-        if (fp16_mma_available(cc) && dst->src[0]->ne[1] > 8) {
+        if (fp16_mma_available(cc)) {
             ggml_cuda_flash_attn_ext_wmma_f16(ctx, dst);
             return;
         }

Original file line number	Diff line number	Diff line change
`@@ -254,7 +254,7 @@ void ggml_cuda_flash_attn_ext(ggml_backend_cuda_context & ctx, ggml_tensor * dst`
`254`	`254`
`255`	`255`	`if (cc >= GGML_CUDA_CC_OFFSET_AMD) {`
`256`	`256`	`#if defined(GGML_HIP_ROCWMMA_FATTN)`
`257`		`- if (fp16_mma_available(cc) && dst->src[0]->ne[1] > 8) {`
	`257`	`+ if (fp16_mma_available(cc)) {`
`258`	`258`	`ggml_cuda_flash_attn_ext_wmma_f16(ctx, dst);`
`259`	`259`	`return;`
`260`	`260`	`}`