update kv_head_base logic

guocuimi · guocuimi · commit ce2c59afab53 · 2025-07-20T22:25:07.000-07:00
diff --git a/src/kernels/attention/collective/sm120_collective_load_cpasync_ws.cuh b/src/kernels/attention/collective/sm120_collective_load_cpasync_ws.cuh
@@ -55,15 +55,15 @@ struct Sm120CollectiveLoadCpAsyncWs {
     // (M, N, K)
     const auto residue_mnk = block.get_residue_mnk();
 
-    // (BLK_M, HEAD_DIM) => (M, K)
+    // (BLK_M, BLK_K) => (M, K)
     auto [gQ, cQ] = block.get_q_tile();
-    // (BLK_N, HEAD_DIM, n) => (N, K)
+    // (BLK_N, BLK_K, n) => (N, K)
     auto [gK, gV, cKV] = block.get_kv_tile();
 
     // Construct smem tensors
-    // (BLK_M, HEAD_DIM), k-major
+    // (BLK_M, BLK_K), k-major
     Tensor sQ = make_tensor(make_smem_ptr(ss.smem_q.data()), SmemLayoutQ{});
-    // (BLK_N, HEAD_DIM, KVStages), k-major
+    // (BLK_N, BLK_K, KVStages), k-major
     Tensor sK = make_tensor(make_smem_ptr(ss.smem_k.data()), SmemLayoutK{});
     Tensor sV = make_tensor(make_smem_ptr(ss.smem_v.data()), SmemLayoutV{});
 
diff --git a/src/kernels/attention/collective/sm120_collective_load_tma_ws.cuh b/src/kernels/attention/collective/sm120_collective_load_tma_ws.cuh
@@ -10,6 +10,7 @@
 #include <cute/tensor.hpp>
 
 #include "common/safe_copy.h"
+#include "common/selector.h"
 
 namespace llm {
 
@@ -26,19 +27,12 @@ template <class TileShape,
           class PipelineKV,
           bool EVEN_K>
 struct Sm120CollectiveLoadTmaWs {
+  static constexpr int kThreads = 128;
   static constexpr int kBlockK = get<2>(TileShape{});
-  // Thr layout for gmem copy
-  using GmemCopyThrLayout_ =
-      std::conditional_t<kBlockK == 32,
-                         Layout<Shape<_32, _4>, Stride<_4, _1>>,
-                         Layout<Shape<_16, _8>, Stride<_8, _1>>>;
-
-  // g2s tiled copy for q
-  using GmemTiledCopyQ = decltype(make_tiled_copy(
-      Copy_Atom<SM80_CP_ASYNC_CACHEGLOBAL<cute::uint128_t>, Element>{},
-      GmemCopyThrLayout_{},    // Thr layout: (_16,_8)/(_32, _4)
-      Layout<Shape<_1, _8>>{}  // Val layout: 8 vals per read
-      ));
+  // g2s tiled copy for Q
+  using GmemTiledCopyQ =
+      decltype(gmem_tiled_copy_selector<Element, kThreads, kBlockK>(
+          Copy_Atom<SM80_CP_ASYNC_CACHEGLOBAL<cute::uint128_t>, Element>{}));
 
   // using StrideK = ...;
 
@@ -74,13 +68,13 @@ struct Sm120CollectiveLoadTmaWs {
     // (M, N, K)
     const auto residue_mnk = block.get_residue_mnk();
 
-    // (BLK_M, HEAD_DIM) => (M, K)
+    // (BLK_M, BLK_K) => (M, K)
     auto [gQ, cQ] = block.get_q_tile();
 
     // Construct smem tensors
-    // (BLK_M, HEAD_DIM), k-major
+    // (BLK_M, BLK_K), k-major
     Tensor sQ = make_tensor(make_smem_ptr(ss.smem_q.data()), SmemLayoutQ{});
-    // (BLK_N, HEAD_DIM, KVStages), k-major
+    // (BLK_N, BLK_K, KVStages), k-major
     Tensor sK = make_tensor(make_smem_ptr(ss.smem_k.data()), SmemLayoutK{});
     Tensor sV = make_tensor(make_smem_ptr(ss.smem_v.data()), SmemLayoutV{});
 
diff --git a/src/kernels/attention/common/fmha_block.h b/src/kernels/attention/common/fmha_block.h
@@ -94,17 +94,20 @@ struct FmhaBlock {
     const auto& [batch_idx, m_block_idx, kv_head_idx] = blk_coord_;
 
     // packing all q in the same kv head group together
-    const auto head_base = kv_head_idx * params_.group_size;
-    auto packed_idx_to_coord = [this, head_base](int packed_idx) {
+    auto packed_idx_to_coord = [this](int packed_idx) {
       // packed_idx => (seq, kv_heads):(group_size, 1)
       int idx, offset;
       params_.group_size.divmod(packed_idx, idx, offset);
-      return make_coord(idx, head_base + offset);
+      return make_coord(idx, offset);
     };
 
-    // (batch, seq, head, dim) => ((seq, kv_head), dim)
-    const auto offset = batch_idx * get<0>(params_.q_stride);
-    // (q_packed_len, head_dim) gmem tensor
+    // (batch, seq, head, dim)
+    // => (batch, seq, (kv_heads, group), dim)
+    // => (seq, group, dim)
+    const auto offset =
+        batch_idx * get<0>(params_.q_stride) +
+        kv_head_idx * params_.group_size * get<2>(params_.q_stride);
+    // gmem tensor: (packed_len, dim) => ((seq, group), dim)
     auto Q = make_gather_tensor(
         make_gmem_ptr((const Element*)params_.q_ptr + offset),
         make_shape(packed_len_, params_.head_dim),
@@ -126,16 +129,20 @@ struct FmhaBlock {
     const auto& [batch_idx, m_block_idx, kv_head_idx] = blk_coord_;
 
     // packing all q in the same kv head group together
-    const auto head_base = kv_head_idx * params_.group_size;
-    auto packed_idx_to_coord = [this, head_base](int packed_idx) {
+    auto packed_idx_to_coord = [this](int packed_idx) {
       // packed_idx => (seq, kv_heads):(group_size, 1)
       int idx, offset;
       params_.group_size.divmod(packed_idx, idx, offset);
-      return make_coord(idx, head_base + offset);
+      return make_coord(idx, offset);
     };
 
-    // (batch, seq, head, dim) => ((seq, head), dim)
-    const auto offset = batch_idx * get<0>(params_.o_stride);
+    // (batch, seq, head, dim)
+    // => (batch, seq, (kv_heads, group), dim)
+    // => (seq, group, dim)
+    const auto offset =
+        batch_idx * get<0>(params_.o_stride) +
+        kv_head_idx * params_.group_size * get<2>(params_.o_stride);
+    // gmem tensor: (packed_len, dim) => ((seq, group), dim)
     auto O = make_gather_tensor(
         make_gmem_ptr((Element*)params_.o_ptr + offset),
         make_shape(packed_len_, params_.head_dim),
diff --git a/src/kernels/attention/kernel/sm80_kernel_mha.cuh b/src/kernels/attention/kernel/sm80_kernel_mha.cuh
@@ -41,22 +41,25 @@ struct MHATile<MHAParams> {
     // (batch, seq, head, dim)
 
     // packed all q/o in the same kv head group together
-    const auto head_base = kv_head_idx_ * params_.group_size;
-    auto packed_idx_to_coord = [this, head_base](int packed_idx) {
+    auto packed_idx_to_coord = [this](int packed_idx) {
       int idx, offset;
       params_.group_size.divmod(packed_idx, idx, offset);
-      return make_coord(idx, head_base + offset);
+      return make_coord(idx, offset);
     };
 
     const auto packed_len = params_.q_len * params_.group_size;
-    const auto q_offset = batch_idx_ * get<0>(params_.q_stride);
+    const auto q_offset =
+        (batch_idx_ * get<0>(params_.q_stride)) +
+        (kv_head_idx_ * params_.group_size * get<2>(params_.q_stride));
     auto q = make_gather_tensor(
         make_gmem_ptr((const Element*)params_.q_ptr + q_offset),
         make_shape(packed_len, params_.head_dim),
         make_stride(select<1, 2>(params_.q_stride), get<3>(params_.q_stride)),
         packed_idx_to_coord);
 
-    const auto o_offset = batch_idx_ * get<0>(params_.o_stride);
+    const auto o_offset =
+        (batch_idx_ * get<0>(params_.o_stride)) +
+        (kv_head_idx_ * params_.group_size * get<2>(params_.o_stride));
     auto o = make_gather_tensor(
         make_gmem_ptr((Element*)params_.o_ptr + o_offset),
         make_shape(packed_len, params_.head_dim),
@@ -69,10 +72,10 @@ struct MHATile<MHAParams> {
   template <typename Element>
   CUTE_HOST_DEVICE auto get_kv_tile() const {
     // (batch, seq, kv_head, dim)
-    const auto k_offset = batch_idx_ * get<0>(params_.k_stride) +
-                          kv_head_idx_ * get<2>(params_.k_stride);
-    const auto v_offset = batch_idx_ * get<0>(params_.v_stride) +
-                          kv_head_idx_ * get<2>(params_.v_stride);
+    const auto k_offset = (batch_idx_ * get<0>(params_.k_stride)) +
+                          (kv_head_idx_ * get<2>(params_.k_stride));
+    const auto v_offset = (batch_idx_ * get<0>(params_.v_stride)) +
+                          (kv_head_idx_ * get<2>(params_.v_stride));
     // k[batch_idx, :, kv_head_idx, :]
     auto k =
         make_tensor(make_gmem_ptr((const Element*)params_.k_ptr + k_offset),
@@ -105,22 +108,26 @@ struct MHATile<MHAPagedKVParams> {
   CUTE_HOST_DEVICE auto get_qo_tile() const {
     const auto begin = params_.q_cu_lens[batch_idx_];
     const auto qo_len = params_.q_cu_lens[batch_idx_ + 1] - begin;
-    const auto head_base = kv_head_idx_ * params_.group_size;
-    auto packed_idx_to_coord = [this, head_base](int packed_idx) {
+
+    auto packed_idx_to_coord = [this](int packed_idx) {
       int idx, offset;
       params_.group_size.divmod(packed_idx, idx, offset);
-      return make_coord(idx, head_base + offset);
+      return make_coord(idx, offset);
     };
 
     const auto packed_len = qo_len * params_.group_size;
-    const auto q_offset = begin * get<0>(params_.q_stride);
+    const auto q_offset =
+        (begin * get<0>(params_.q_stride)) +
+        (kv_head_idx_ * params_.group_size * get<1>(params_.q_stride));
     auto q = make_gather_tensor(
         make_gmem_ptr((const Element*)params_.q_ptr + q_offset),
         make_shape(packed_len, params_.head_dim),
         make_stride(select<0, 1>(params_.q_stride), get<2>(params_.q_stride)),
         packed_idx_to_coord);
 
-    const auto o_offset = begin * get<0>(params_.o_stride);
+    const auto o_offset =
+        (begin * get<0>(params_.o_stride)) +
+        (kv_head_idx_ * params_.group_size * get<1>(params_.o_stride));
     auto o = make_gather_tensor(
         make_gmem_ptr((Element*)params_.o_ptr + o_offset),
         make_shape(packed_len, params_.head_dim),