[fix](ggml-cuda): ensure min 1 block per SM

catan2001 · catan2001 · commit 384570605785 · 2025-10-17T09:18:16.000Z
Some kernel configurations can produce zero occupancy on certain
GPUs (example: RX 6700XT). This adds a safeguard to ensure at least
one block is launched, preventing floating point exception.

Co-authored-by: Attila Dusnoki &lt;attila.dusnoki@htecgroup.com&gt;.
diff --git a/ggml/src/ggml-cuda/fattn-common.cuh b/ggml/src/ggml-cuda/fattn-common.cuh
@@ -895,6 +895,7 @@ void launch_fattn(
     const dim3 block_dim(warp_size, nwarps, 1);
     int max_blocks_per_sm = 1; // Max. number of active blocks limited by occupancy.
     CUDA_CHECK(cudaOccupancyMaxActiveBlocksPerMultiprocessor(&max_blocks_per_sm, fattn_kernel, block_dim.x * block_dim.y * block_dim.z, nbytes_shared));
+    max_blocks_per_sm = std::max(max_blocks_per_sm, 1); // Safeguard, ensures at least one block can be launched.
     int parallel_blocks = max_blocks_per_sm;
 
     dim3 blocks_num;