[TLX] Pipelining flash attention bwd kernel (#630)

htyu · meta-codesync[bot] · commit d0e6fa565d7e · 2025-11-04T09:12:07.000-08:00
Summary: Key changes - Pipeline the load and mma task - Use 8 warps instead of 4 for the compute task - Adjust buffer stages and register requirements Before ``` fused-attention-ws-pipelined-persistent-batch4-head32-d128: N_CTX Triton [FP16] 0 1024.0 322.140956 1 2048.0 394.705387 2 4096.0 440.500436 3 8192.0 460.003597 4 16384.0 472.748830 ``` After ``` fused-attention-ws-pipelined-persistent-batch4-head32-d128: N_CTX Triton [FP16] 0 1024.0 433.543387 1 2048.0 550.770631 2 4096.0 598.717550 3 8192.0 643.836015 4 16384.0 655.650778 ``` Pull Request resolved: #630 Reviewed By: manman-ren Differential Revision: D86162895 Pulled By: htyu fbshipit-source-id: 9e87337a4af5880657322537c3290596065ab33f
diff --git a/third_party/tlx/tutorials/blackwell-fa-ws-pipelined-persistent_test.py b/third_party/tlx/tutorials/blackwell-fa-ws-pipelined-persistent_test.py
@@ -824,11 +824,11 @@ def _bwd_host_descriptor_pre_hook_tlx(nargs):
             "BLOCK_M2": 128,
             "BLOCK_N2": 128,
             "NUM_BUFFERS_KV": 1,
-            "NUM_BUFFERS_Q": 1,
+            "NUM_BUFFERS_Q": 2,
             "NUM_BUFFERS_DO": 1,
             "NUM_BUFFERS_DS": 1,
             "NUM_BUFFERS_TMEM": 1,
-            "EPILOGUE_SUBTILE": 2,
+            "EPILOGUE_SUBTILE": 4,
         },
         num_warps=4,
         num_stages=1,
@@ -839,7 +839,7 @@ def _bwd_host_descriptor_pre_hook_tlx(nargs):
 
 @triton.autotune(configs=configs_bwd_tlx, key=["N_CTX", "HEAD_DIM"])
 @triton.jit
-def _attn_bwd(
+def _attn_bwd_ws(
     desc_q,
     desc_k,
     desc_v,
@@ -874,18 +874,18 @@ def _attn_bwd(
     k_tiles = tlx.local_alloc((BLOCK_N1, HEAD_DIM), tlx.dtype_of(desc_k), NUM_BUFFERS_KV)
     v_tiles = tlx.local_alloc((BLOCK_N1, HEAD_DIM), tlx.dtype_of(desc_v), NUM_BUFFERS_KV)
     q_tiles = tlx.local_alloc((BLOCK_M1, HEAD_DIM), tlx.dtype_of(desc_q), NUM_BUFFERS_Q)
-    do_tiles = tlx.local_alloc((BLOCK_M1, HEAD_DIM), tlx.dtype_of(desc_do), NUM_BUFFERS_Q)
+    do_tiles = tlx.local_alloc((BLOCK_M1, HEAD_DIM), tlx.dtype_of(desc_do), NUM_BUFFERS_DO)
 
     # Use SMEM for dsT
-    ds_tiles = tlx.local_alloc((BLOCK_N1, BLOCK_M1), tlx.dtype_of(desc_q), NUM_BUFFERS_TMEM)
+    ds_tiles = tlx.local_alloc((BLOCK_N1, BLOCK_M1), tlx.dtype_of(desc_q), NUM_BUFFERS_DS)
 
     # allocate barriers for smem buffers
     k_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_KV)
     v_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_KV)
     q_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_Q)
     q_empties = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_Q)
-    do_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_Q)
-    do_empties = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_Q)
+    do_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_DO)
+    do_empties = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_DO)
     ds_fulls = tlx.alloc_barriers(num_barriers=NUM_BUFFERS_TMEM)
 
     # allocate tmem buffers
@@ -951,7 +951,7 @@ def _attn_bwd(
                 curr_m += step_m
 
         # compute
-        with tlx.async_task(num_warps=4, registers=136, replicate=1):
+        with tlx.async_task(num_warps=8, registers=192, replicate=1):
             off_chz, off_bh, start_m, start_n, num_steps = bwd_caculate_offsets(stride_z, stride_h, stride_tok, H,
                                                                                 N_CTX, BLOCK_M1, BLOCK_N1)
 
@@ -962,6 +962,7 @@ def _attn_bwd(
             step_m = BLOCK_M1
             for blk_idx in range(num_steps):
                 tmem_buf_id, tmem_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_TMEM)
+                ds_buf_id, _ = _get_bufidx_phase(blk_idx, NUM_BUFFERS_DS)
 
                 offs_m = curr_m + tl.arange(0, BLOCK_M1)
                 m = tl.load(M + offs_m)
@@ -989,9 +990,9 @@ def _attn_bwd(
                 # in the same iteration. Release dQ instead later.
                 dsT = pT * (dpT - Di[None, :])
                 dsT = dsT.to(tlx.dtype_of(desc_q))
-                tlx.local_store(ds_tiles[tmem_buf_id], dsT)
+                tlx.local_store(ds_tiles[ds_buf_id], dsT)
                 tlx.fence_async_shared()
-                tlx.barrier_arrive(ds_fulls[tmem_buf_id])
+                tlx.barrier_arrive(ds_fulls[ds_buf_id])
                 curr_m += step_m
 
             # epilogue
@@ -1026,7 +1027,7 @@ def _attn_bwd(
                 )
 
         # mma
-        with tlx.async_task(num_warps=1, registers=88):
+        with tlx.async_task(num_warps=1, registers=48):
             _, _, start_m, _, num_steps = bwd_caculate_offsets(stride_z, stride_h, stride_tok, H, N_CTX, BLOCK_M1,
                                                                BLOCK_N1)
 
@@ -1038,10 +1039,66 @@ def _attn_bwd(
             tl.static_assert(BLOCK_N1 % BLOCK_M1 == 0)
             curr_m = start_m
             step_m = BLOCK_M1
-            for blk_idx in range(num_steps):
+            blk_idx = 0
+
+            # -----------------------------------------------------------
+            # Prolog
+            #
+            # 1. qkT = tl.dot(k, qT)
+            # 2. dpT = tl.dot(v, tl.trans(do))
+            # 3. dv += tl.dot(ppT, do)
+            # -----------------------------------------------------------
+
+            q_buf_id, q_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_Q)
+            do_buf_id, do_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_DO)
+            tmem_buf_id, tmem_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_TMEM)
+
+            # Compute qkT = tl.dot(k, qT)
+            tlx.barrier_wait(q_fulls[q_buf_id], q_phase)
+            tlx.barrier_wait(qk_empties[tmem_buf_id], tmem_phase ^ 1)
+            qT = tlx.local_trans(q_tiles[q_buf_id])
+            tlx.async_dot(
+                k_tiles[0],
+                qT,
+                qk_tiles[tmem_buf_id],
+                use_acc=False,
+                mBarriers=[qk_fulls[tmem_buf_id]],
+            )
+
+            # Compute dpT = tl.dot(v, tl.trans(do))
+            tlx.barrier_wait(do_fulls[do_buf_id], do_phase)
+            # As dP uses the same tmem as dQ, wait for dQ release.
+            tlx.barrier_wait(dq_empties[tmem_buf_id], tmem_phase ^ 1)
+            doT = tlx.local_trans(do_tiles[do_buf_id])
+            tlx.async_dot(
+                v_tiles[0],
+                doT,
+                dp_tiles[tmem_buf_id],
+                use_acc=False,
+                mBarriers=[dp_fulls[tmem_buf_id]],
+            )
+
+            # Compute dv += tl.dot(ppT, do)
+            tlx.barrier_wait(p_fulls[tmem_buf_id], tmem_phase)
+            tlx.async_dot(
+                p_tiles[tmem_buf_id],
+                do_tiles[do_buf_id],
+                dv_tiles[tmem_buf_id],
+                use_acc=False,
+                mBarriers=[do_empties[do_buf_id]],
+            )
+
+            # -----------------------------------------------------------
+            # Main loop
+            # 1. qkT = tl.dot(k, qT)
+            # 2. dq = tl.dot(tl.trans(dsT), k) from previous iteration
+            # 3. dk += tl.dot(dsT, tl.trans(qT)) from previous iteration
+            # 4. dpT = tl.dot(v, tl.trans(do))
+            # 5. dv += tl.dot(ppT, do)
+            # -----------------------------------------------------------
+            for blk_idx in range(1, num_steps):
                 q_buf_id, q_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_Q)
                 tmem_buf_id, tmem_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_TMEM)
-
                 # Compute qkT = tl.dot(k, qT)
                 tlx.barrier_wait(q_fulls[q_buf_id], q_phase)
                 tlx.barrier_wait(qk_empties[tmem_buf_id], tmem_phase ^ 1)
@@ -1054,11 +1111,38 @@ def _attn_bwd(
                     mBarriers=[qk_fulls[tmem_buf_id]],
                 )
 
+                prev_blk_idx = blk_idx - 1
+                q_buf_id_prev, _ = _get_bufidx_phase(prev_blk_idx, NUM_BUFFERS_Q)
+                tmem_buf_id_prev, tmem_phase_prev = _get_bufidx_phase(prev_blk_idx, NUM_BUFFERS_TMEM)
+                ds_buf_id_prev, ds_phase_prev = _get_bufidx_phase(prev_blk_idx, NUM_BUFFERS_DS)
+
+                # Compute dq = tl.dot(tl.trans(dsT), k) from previous iteration
+                tlx.barrier_wait(ds_fulls[tmem_buf_id_prev], ds_phase_prev)
+                tlx.barrier_wait(dq_empties[tmem_buf_id_prev], tmem_phase_prev ^ 1)
+                dsT_view = tlx.local_trans(ds_tiles[ds_buf_id_prev])
+                tlx.async_dot(
+                    dsT_view,
+                    k_tiles[0],
+                    dq_tiles[tmem_buf_id_prev],
+                    use_acc=False,
+                    mBarriers=[dq_fulls[tmem_buf_id_prev]],
+                )
+
+                # Compute dk += tl.dot(dsT, tl.trans(qT)) from previous iteration
+                tlx.async_dot(
+                    ds_tiles[ds_buf_id_prev],
+                    q_tiles[q_buf_id_prev],
+                    dk_tiles[tmem_buf_id_prev],
+                    use_acc=prev_blk_idx > 0,
+                    mBarriers=[q_empties[q_buf_id_prev]],
+                )
+
+                do_buf_id, do_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_DO)
                 # Compute dpT = tl.dot(v, tl.trans(do))
-                tlx.barrier_wait(do_fulls[q_buf_id], q_phase)
+                tlx.barrier_wait(do_fulls[do_buf_id], do_phase)
                 # As dP uses the same tmem as dQ, wait for dQ release.
                 tlx.barrier_wait(dq_empties[tmem_buf_id], tmem_phase ^ 1)
-                doT = tlx.local_trans(do_tiles[q_buf_id])
+                doT = tlx.local_trans(do_tiles[do_buf_id])
                 tlx.async_dot(
                     v_tiles[0],
                     doT,
@@ -1071,63 +1155,89 @@ def _attn_bwd(
                 tlx.barrier_wait(p_fulls[tmem_buf_id], tmem_phase)
                 tlx.async_dot(
                     p_tiles[tmem_buf_id],
-                    do_tiles[q_buf_id],
+                    do_tiles[do_buf_id],
                     dv_tiles[tmem_buf_id],
-                    use_acc=blk_idx > 0,
-                    mBarriers=[do_empties[q_buf_id]],
+                    use_acc=True,
+                    mBarriers=[do_empties[do_buf_id]],
                 )
 
-                # Compute dk += tl.dot(dsT, tl.trans(qT))
-                tlx.barrier_wait(ds_fulls[tmem_buf_id], tmem_phase)
-                tlx.async_dot(
-                    ds_tiles[tmem_buf_id],
-                    q_tiles[q_buf_id],
-                    dk_tiles[tmem_buf_id],
-                    use_acc=blk_idx > 0,
-                    mBarriers=[q_empties[tmem_buf_id]],
-                )
+            tlx.tcgen05_commit(dv_fulls[kv_buf_id])
 
-                # Compute dq = tl.dot(tl.trans(dsT), k)
-                tlx.barrier_wait(dq_empties[tmem_buf_id], tmem_phase ^ 1)
-                dsT_view = tlx.local_trans(ds_tiles[tmem_buf_id])
-                tlx.async_dot(
-                    dsT_view,
-                    k_tiles[0],
-                    dq_tiles[tmem_buf_id],
-                    use_acc=False,
-                    mBarriers=[dq_fulls[tmem_buf_id]],
-                )
+            # -----------------------------------------------------------
+            # Epilog
+            # 4. dk += tl.dot(dsT, tl.trans(qT))
+            # 5. dq = tl.dot(tl.trans(dsT), k)
+            # -----------------------------------------------------------
+            q_buf_id, _ = _get_bufidx_phase(num_steps - 1, NUM_BUFFERS_Q)
+            tmem_buf_id, tmem_phase = _get_bufidx_phase(num_steps - 1, NUM_BUFFERS_TMEM)
+            ds_buf_id, ds_phase = _get_bufidx_phase(num_steps - 1, NUM_BUFFERS_DS)
+            # Compute dk += tl.dot(dsT, tl.trans(qT))
+            tlx.barrier_wait(ds_fulls[tmem_buf_id], ds_phase)
+            tlx.async_dot(
+                ds_tiles[ds_buf_id],
+                q_tiles[q_buf_id],
+                dk_tiles[tmem_buf_id],
+                use_acc=num_steps > 1,
+                mBarriers=[q_empties[q_buf_id], dk_fulls[kv_buf_id]],
+            )
 
-            tlx.tcgen05_commit(dv_fulls[kv_buf_id])
-            tlx.tcgen05_commit(dk_fulls[kv_buf_id])
+            # Compute dq = tl.dot(tl.trans(dsT), k)
+            tlx.barrier_wait(dq_empties[tmem_buf_id], tmem_phase ^ 1)
+            dsT_view = tlx.local_trans(ds_tiles[ds_buf_id])
+            tlx.async_dot(
+                dsT_view,
+                k_tiles[0],
+                dq_tiles[tmem_buf_id],
+                use_acc=False,
+                mBarriers=[dq_fulls[tmem_buf_id]],
+            )
 
         # load
         with tlx.async_task(num_warps=1, registers=88):
             _, off_bh, start_m, start_n, num_steps = bwd_caculate_offsets(stride_z, stride_h, stride_tok, H, N_CTX,
                                                                           BLOCK_M1, BLOCK_N1)
-
+            # Load K
             kv_buf_id, _ = _get_bufidx_phase(0, NUM_BUFFERS_KV)
             tlx.barrier_expect_bytes(k_fulls[kv_buf_id], 2 * BLOCK_N1 * HEAD_DIM)  # float16
             tlx.async_descriptor_load(desc_k, k_tiles[kv_buf_id], [(off_bh + start_n).to(tl.int32), 0],
                                       k_fulls[kv_buf_id])
 
+            # Load Q
+            curr_m = start_m
+            step_m = BLOCK_M1
+            blk_idx = 0
+            q_buf_id, q_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_Q)
+            tlx.barrier_wait(q_empties[q_buf_id], q_phase ^ 1)
+            tlx.barrier_expect_bytes(q_fulls[q_buf_id], 2 * BLOCK_M1 * HEAD_DIM)
+            tlx.async_descriptor_load(desc_q, q_tiles[q_buf_id], [(off_bh + curr_m).to(tl.int32), 0], q_fulls[q_buf_id])
+
+            # Load V
             tlx.barrier_expect_bytes(v_fulls[kv_buf_id], 2 * BLOCK_N1 * HEAD_DIM)  # float16
             tlx.async_descriptor_load(desc_v, v_tiles[kv_buf_id], [(off_bh + start_n).to(tl.int32), 0],
                                       v_fulls[kv_buf_id])
 
-            curr_m = start_m
-            step_m = BLOCK_M1
-            for blk_idx in range(num_steps):
+            # Load dO
+            do_buf_id, do_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_DO)
+            tlx.barrier_wait(do_empties[do_buf_id], do_phase ^ 1)
+            tlx.barrier_expect_bytes(do_fulls[do_buf_id], 2 * BLOCK_M1 * HEAD_DIM)
+            tlx.async_descriptor_load(desc_do, do_tiles[do_buf_id], [(off_bh + curr_m).to(tl.int32), 0],
+                                      do_fulls[do_buf_id])
+            curr_m += step_m
+
+            for blk_idx in range(1, num_steps):
                 q_buf_id, q_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_Q)
+                do_buf_id, do_phase = _get_bufidx_phase(blk_idx, NUM_BUFFERS_DO)
+                # Load Q
                 tlx.barrier_wait(q_empties[q_buf_id], q_phase ^ 1)
                 tlx.barrier_expect_bytes(q_fulls[q_buf_id], 2 * BLOCK_M1 * HEAD_DIM)
                 tlx.async_descriptor_load(desc_q, q_tiles[q_buf_id], [(off_bh + curr_m).to(tl.int32), 0],
                                           q_fulls[q_buf_id])
 
-                tlx.barrier_wait(do_empties[q_buf_id], q_phase ^ 1)
-                tlx.barrier_expect_bytes(do_fulls[q_buf_id], 2 * BLOCK_M1 * HEAD_DIM)
-                tlx.async_descriptor_load(desc_do, do_tiles[q_buf_id], [(off_bh + curr_m).to(tl.int32), 0],
-                                          do_fulls[q_buf_id])
+                # Load dO
+                tlx.barrier_wait(do_empties[do_buf_id], do_phase ^ 1)
+                tlx.barrier_expect_bytes(do_fulls[do_buf_id], 2 * BLOCK_M1 * HEAD_DIM)
+                tlx.async_descriptor_load(desc_do, do_tiles[do_buf_id], [(off_bh + curr_m).to(tl.int32), 0],
+                                          do_fulls[do_buf_id])
                 curr_m += step_m
 
 
@@ -1241,7 +1351,7 @@ def grid(meta):
                     1,  # (or cdiv over M if you need)
                     BATCH * N_HEAD)  # batch*heads
 
-        _attn_bwd[grid](
+        _attn_bwd_ws[grid](
             desc_q, desc_k, desc_v, ctx.sm_scale, desc_do, desc_dq, desc_dk, desc_dv,  #
             M, delta,  #
             q.stride(0), q.stride(1), q.stride(2), q.stride(3),  #