Fix bug in FA ops calc

azaidy · web-flow · commit f07da4a7b54b · 2025-03-14T17:13:14.000-04:00
diff --git a/python/perf-kernels/flash-attention.py b/python/perf-kernels/flash-attention.py
@@ -1990,7 +1990,7 @@ def bench_flash_attention(BATCH, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, dtype, causal
                     # Total zero elements are 1+2+...+(seqlen_q-1) = seqlen_q*(seqlen_q-1)/2
                     # Total non zero elements are seqlen_q*seqlen_k - (seqlen_q*(seqlen_q-1)/2)
                     valid_out_elements = ((seqlen_k**2 + seqlen_k) / 2) if seqlen_q > seqlen_k else \
-                            (seqlen_q * seqlen_k - ((seqlen_q**1 - seqlen_q) / 2))
+                            (seqlen_q * seqlen_k - ((seqlen_q**2 - seqlen_q) / 2))
                     flops_per_matmul += valid_out_elements * HQ * D_HEAD * 2
                 else:
                     flops_per_matmul += seqlen_q * seqlen_k * HQ * D_HEAD * 2