use selector for sm80 mha

guocuimi · guocuimi · commit 56e8bed876f7 · 2025-07-20T14:58:04.000-07:00
diff --git a/src/kernels/attention/collective/sm80_collective_epilogue.cuh b/src/kernels/attention/collective/sm80_collective_epilogue.cuh
@@ -9,51 +9,42 @@
 
 #include "common/fast_cast.cuh"
 #include "common/safe_copy.h"
+#include "common/selector.h"
 
 namespace llm {
 using namespace cute;
 
-template <class TileShape_, class Element_, int HeadDim_, bool EVEN_K_>
+template <class TileShape_, class Element_, bool EVEN_K_>
 struct Sm80CollectiveEpilogue {
   using TileShape = TileShape_;
   using Element = Element_;
 
-  static constexpr int kHeadDim = HeadDim_;
+  static constexpr int kThreads = 128;
   static constexpr bool EVEN_K = EVEN_K_;
 
   static constexpr int kBlockM = get<0>(TileShape{});
   static constexpr int kBlockK = get<2>(TileShape{});
 
   using BLK_M = Int<kBlockM>;
   using BLK_K = Int<kBlockK>;
-  using HEAD_DIM = Int<kHeadDim>;
 
   using SmemLayoutAtom_ =
-      decltype(composition(Swizzle<3, 3, 3>{},
-                           Layout<Shape<_8, BLK_K>, Stride<BLK_K, _1>>{}));
+      decltype(smem_layout_atom_selector<Element, kBlockK>());
 
-  // Q smem: (BLK_M, HEAD_DIM)
+  // Q smem: (BLK_M, BLK_K)
   using SmemLayoutO =
-      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_M, HEAD_DIM>{}));
+      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_M, BLK_K>{}));
 
   // use 128-bit vectorizing copy
   using VectorizingCopy_ = AutoVectorizingCopyWithAssumedAlignment<128>;
 
   // r2s copy atom for O
   using SmemCopyAtom_ = Copy_Atom<VectorizingCopy_, Element>;
 
-  // Thr layout for gmem copy
-  using GmemCopyThrLayout_ =
-      std::conditional_t<kBlockK == 32,
-                         Layout<Shape<_32, _4>, Stride<_4, _1>>,
-                         Layout<Shape<_16, _8>, Stride<_8, _1>>>;
-
   // s2g tiled copy for O
-  using GmemTiledCopyO = decltype(make_tiled_copy(
-      Copy_Atom<VectorizingCopy_, Element>{},
-      GmemCopyThrLayout_{},    // Thr layout: (_16,_8)/(_32, _4)
-      Layout<Shape<_1, _8>>{}  // Val layout: 8 vals per read
-      ));
+  using GmemTiledCopyO =
+      decltype(gmem_tiled_copy_selector<Element, kThreads, kBlockK>(
+          Copy_Atom<VectorizingCopy_, Element>{}));
 
   struct SharedStorage : cute::aligned_struct<128> {
     cute::array_aligned<Element, cute::cosize_v<SmemLayoutO>> smem_o;
@@ -73,20 +64,19 @@ struct Sm80CollectiveEpilogue {
             class TensorO,
             class TensorCO,
             class ResidueMNK>
-  CUTE_DEVICE void operator()(
-      const Params& /*params*/,
-      const FrgTensor& tOrAccO,  // (MMA, MMA_M, MMA_N)
-      TiledMma tiled_mma,
-      TensorO& gO,         // (BLK_M, HEAD_DIM)
-      const TensorCO& cO,  // (BLK_M, HEAD_DIM) => (M, K)
-      int tidx,
-      const ResidueMNK& residue_mnk,
-      char* smem) {
+  CUTE_DEVICE void operator()(const Params& /*params*/,
+                              const FrgTensor& tOrAccO,  // (MMA, MMA_M, MMA_N)
+                              TiledMma tiled_mma,
+                              TensorO& gO,         // (BLK_M, BLK_K)
+                              const TensorCO& cO,  // (BLK_M, BLK_K) => (M, K)
+                              int tidx,
+                              const ResidueMNK& residue_mnk,
+                              char* smem) {
     static constexpr int kBlockM = get<0>(TileShape{});
 
     // Smem
     auto& ss = *reinterpret_cast<SharedStorage*>(smem);
-    // (BLK_M, HEAD_DIM)
+    // (BLK_M, BLK_K)
     Tensor sO = make_tensor(make_smem_ptr(ss.smem_o.data()), SmemLayoutO{});
 
     // 1. cast output from ElementAccumulator to Element
diff --git a/src/kernels/attention/collective/sm80_collective_mha.cuh b/src/kernels/attention/collective/sm80_collective_mha.cuh
@@ -11,14 +11,14 @@
 #include "common/fast_cast.cuh"
 #include "common/layout_convertor.h"
 #include "common/safe_copy.h"
+#include "common/selector.h"
 
 namespace llm {
 
 using namespace cute;
 
 template <class TileShape_,
           class Element_,
-          int HeadDim_,
           bool EVEN_K,
           bool ALIBI,
           bool SOFT_CAP,
@@ -29,21 +29,16 @@ struct Sm80CollectiveMha {
   using Element = Element_;
   using ElementAccum = float;
 
-  static constexpr int kHeadDim = HeadDim_;
   static constexpr int kBlockM = get<0>(TileShape{});
   static constexpr int kBlockN = get<1>(TileShape{});
   static constexpr int kBlockK = get<2>(TileShape{});
 
   static constexpr bool kAlibi = ALIBI;
   static constexpr bool kLocal = LOCAL;
 
-  static_assert(kBlockK == 32 || kBlockK == 64);
-  static_assert(kHeadDim % kBlockK == 0);
-
   using BLK_M = Int<kBlockM>;
   using BLK_N = Int<kBlockN>;
   using BLK_K = Int<kBlockK>;
-  using HEAD_DIM = Int<kHeadDim>;
 
   // TiledMMA (64x16x16) for gemm-I and gemm-II
   using MMA_Atom_ =
@@ -57,36 +52,26 @@ struct Sm80CollectiveMha {
   static constexpr int kRowsPerMMA = 2;
   static constexpr int kMmaThreads = size(TiledMma{});
 
-  // Atom layout: (8, BLK_K):(BLK_K, 1) k-major
+  // Atom layout for shared memory
   using SmemLayoutAtom_ =
-      decltype(composition(Swizzle<3, 3, 3>{},
-                           Layout<Shape<_8, BLK_K>, Stride<BLK_K, _1>>{}));
+      decltype(smem_layout_atom_selector<Element, kBlockK>());
 
-  // Q smem: (BLK_M, HEAD_DIM)
+  // Q smem: (BLK_M, BLK_K)
   using SmemLayoutQ =
-      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_M, HEAD_DIM>{}));
+      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_M, BLK_K>{}));
 
-  // KV smem: (BLK_N, HEAD_DIM)
+  // KV smem: (BLK_N, BLK_K)
   using SmemLayoutK =
-      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_N, HEAD_DIM>{}));
+      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_N, BLK_K>{}));
   using SmemLayoutV =
-      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_N, HEAD_DIM>{}));
+      decltype(tile_to_shape(SmemLayoutAtom_{}, Shape<BLK_N, BLK_K>{}));
 
-  // V^T smem: (HEAD_DIM, BLK_N)
+  // V^T smem: (BLK_K, BLK_N)
   using SmemLayoutVt = decltype(select<1, 0>(SmemLayoutV{}));
 
-  // Thr layout for gmem copy
-  using GmemCopyThrLayout_ =
-      std::conditional_t<kBlockK == 32,
-                         Layout<Shape<_32, _4>, Stride<_4, _1>>,
-                         Layout<Shape<_16, _8>, Stride<_8, _1>>>;
-
-  // g2s tiled copy for q
-  using GmemTiledCopyQ = decltype(make_tiled_copy(
-      Copy_Atom<SM80_CP_ASYNC_CACHEGLOBAL<cute::uint128_t>, Element>{},
-      GmemCopyThrLayout_{},    // Thr layout: (_16,_8)/(_32, _4)
-      Layout<Shape<_1, _8>>{}  // Val layout: 8 vals per read
-      ));
+  using GmemTiledCopyQ =
+      decltype(gmem_tiled_copy_selector<Element, kMmaThreads, kBlockK>(
+          Copy_Atom<SM80_CP_ASYNC_CACHEGLOBAL<cute::uint128_t>, Element>{}));
 
   // g2s tiled copy for kv
   using GmemTiledCopyKV = GmemTiledCopyQ;
@@ -145,11 +130,11 @@ struct Sm80CollectiveMha {
             class ResidueMNK>
   CUTE_DEVICE void operator()(
       const Params& params,
-      const TensorQ& gQ,          // (BLK_M, HEAD_DIM)
-      const TensorCQ& cQ,         // (BLK_M, HEAD_DIM) => (M, K)
-      const TensorK& gK,          // (BLK_N, HEAD_DIM, n)
-      const TensorV& gV,          // (BLK_N, HEAD_DIM, n)
-      const TensorCKV& cKV,       // (BLK_N, HEAD_DIM, n) => (N, K)
+      const TensorQ& gQ,          // (BLK_M, BLK_K)
+      const TensorCQ& cQ,         // (BLK_M, BLK_K) => (M, K)
+      const TensorK& gK,          // (BLK_N, BLK_K, n)
+      const TensorV& gV,          // (BLK_N, BLK_K, n)
+      const TensorCKV& cKV,       // (BLK_N, BLK_K, n) => (N, K)
       const TensorCMN& tScMN_mn,  // ((2, MMA_M), (2, MMA_N), n) => (M, N)
       FrgTensor& tOrO,            // (MMA, MMA_M, MMA_N)
       Softmax& softmax,
@@ -173,14 +158,14 @@ struct Sm80CollectiveMha {
     // Construct shared memory tiles
     auto& ss = *reinterpret_cast<SharedStorage*>(smem);
 
-    // (BLK_M, HEAD_DIM), k-major
+    // (BLK_M, BLK_K), k-major
     Tensor sQ = make_tensor(make_smem_ptr(ss.smem_q.data()), SmemLayoutQ{});
-    // (BLK_N, HEAD_DIM), k-major
+    // (BLK_N, BLK_K), k-major
     Tensor sK = make_tensor(make_smem_ptr(ss.smem_k.data()), SmemLayoutK{});
     Tensor sV = make_tensor(make_smem_ptr(ss.smem_v.data()), SmemLayoutV{});
 
     // Tensor for V^t; used in GEMM-II.
-    // (HEAD_DIM, BLK_N), k-major
+    // (BLK_K, BLK_N), k-major
     Tensor sVt = make_tensor(make_smem_ptr(ss.smem_vt.data()), SmemLayoutVt{});
 
     // g2s tiled copy for qkv
diff --git a/src/kernels/attention/common/selector.h b/src/kernels/attention/common/selector.h
@@ -15,7 +15,6 @@ using Layout_K_INTER_Atom_Bits  = ComposedLayout<Swizzle<0,4,3>, smem_ptr_flag,
 using Layout_K_SW32_Atom_Bits   = ComposedLayout<Swizzle<1,4,3>, smem_ptr_flag, Layout<Shape<_8, _256>,Stride< _256,_1>>>;
 using Layout_K_SW64_Atom_Bits   = ComposedLayout<Swizzle<2,4,3>, smem_ptr_flag, Layout<Shape<_8, _512>,Stride< _512,_1>>>;
 using Layout_K_SW128_Atom_Bits  = ComposedLayout<Swizzle<3,4,3>, smem_ptr_flag, Layout<Shape<_8,_1024>,Stride<_1024,_1>>>;
-using Layout_K_SW256_Atom_Bits  = ComposedLayout<Swizzle<3,4,4>, smem_ptr_flag, Layout<Shape<_8,_2048>,Stride<_2048,_1>>>;
 
 // K-major layouts in units of Type
 template <class Type>
@@ -26,17 +25,12 @@ template <class Type>
 using Layout_K_SW64_Atom  = decltype(upcast<sizeof_bits<Type>::value>(Layout_K_SW64_Atom_Bits{}));
 template <class Type>
 using Layout_K_SW128_Atom = decltype(upcast<sizeof_bits<Type>::value>(Layout_K_SW128_Atom_Bits{}));
-template <class Type>
-using Layout_K_SW256_Atom = decltype(upcast<sizeof_bits<Type>::value>(Layout_K_SW256_Atom_Bits{}));
 
 } // namespace detail
 
 template <class Element, int kBlockK>
 CUTE_HOST_DEVICE constexpr auto smem_layout_atom_selector() {
-  if constexpr (kBlockK % size<1>(detail::Layout_K_SW256_Atom<Element>{}) == 0) {
-    return detail::Layout_K_SW256_Atom<Element>{};
-  }
-  else if constexpr (kBlockK % size<1>(detail::Layout_K_SW128_Atom<Element>{}) == 0) {
+  if constexpr (kBlockK % size<1>(detail::Layout_K_SW128_Atom<Element>{}) == 0) {
     return detail::Layout_K_SW128_Atom<Element>{};
   }
   else if constexpr (kBlockK % size<1>(detail::Layout_K_SW64_Atom<Element>{}) == 0) {
@@ -59,13 +53,16 @@ template <class Element, int kThreads, int kBlockK, class Copy_Atom>
 CUTE_HOST_DEVICE constexpr auto gmem_tiled_copy_selector(Copy_Atom cp_atom) {
   // maxmize vectorized load (128-bits or 16 bytes per thread)
   constexpr int kElemsPerLoad = sizeof(cute::uint128_t) / sizeof(Element);
-  static_assert(kBlockK % kElemsPerLoad == 0,
+  constexpr int kSmemBlockK =
+      size<1>(smem_layout_atom_selector<Element, kBlockK>());
+  static_assert(kSmemBlockK % kElemsPerLoad == 0,
                 "kBlockK must be a multiple of kGmemElemsPerLoad");
 
-  constexpr int kThreadsPerRow = kBlockK / kElemsPerLoad;
+  constexpr int kThreadsPerRow = kSmemBlockK / kElemsPerLoad;
   static_assert(kThreads % kThreadsPerRow == 0,
                 "kThreads must be a multiple of kThreadsPerRow");
   constexpr int kRows = kThreads / kThreadsPerRow;
+  static_assert(kRows <= 64, "kRows must be less than or equal to 64");
 
   constexpr auto thr_layout = Layout<Shape<Int<kRows>, Int<kThreadsPerRow>>,
                                      Stride<Int<kThreadsPerRow>, _1>>{};
diff --git a/src/kernels/attention/device/sm80_mha_launch.cuh b/src/kernels/attention/device/sm80_mha_launch.cuh
@@ -51,18 +51,11 @@ void sm80_launch_mha_kernel(const Params& params, cudaStream_t stream) {
   // * 12.0      : 0, 8, 16, 32, 64, 100
   constexpr int BLK_M = 64;
   constexpr int BLK_N = 64;
-  constexpr int BLK_K = HEAD_DIM % 64 == 0 ? 64 : 32;
-
-  using TileShape = Shape<Int<BLK_M>, Int<BLK_N>, Int<BLK_K>>;
-  using CollectiveMainloop = Sm80CollectiveMha<TileShape,
-                                               Dtype,
-                                               HEAD_DIM,
-                                               EVEN_K,
-                                               ALIBI,
-                                               SOFT_CAP,
-                                               LOCAL>;
-  using CollectiveEpilogue =
-      Sm80CollectiveEpilogue<TileShape, Dtype, HEAD_DIM, EVEN_K>;
+
+  using TileShape = Shape<Int<BLK_M>, Int<BLK_N>, Int<HEAD_DIM>>;
+  using CollectiveMainloop =
+      Sm80CollectiveMha<TileShape, Dtype, EVEN_K, ALIBI, SOFT_CAP, LOCAL>;
+  using CollectiveEpilogue = Sm80CollectiveEpilogue<TileShape, Dtype, EVEN_K>;
 
   // TODO: support persistent kernels
   using TileScheduler = SingleTileScheduler;
diff --git a/src/kernels/attention/kernel/sm80_kernel_mha.cuh b/src/kernels/attention/kernel/sm80_kernel_mha.cuh
@@ -178,7 +178,7 @@ class Sm80KernelMha {
   using Element = typename CollectiveMainloop::Element;
   using BLK_M = typename CollectiveMainloop::BLK_M;
   using BLK_N = typename CollectiveMainloop::BLK_N;
-  using HEAD_DIM = typename CollectiveMainloop::HEAD_DIM;
+  using BLK_K = typename CollectiveMainloop::BLK_K;
 
   static constexpr int kSharedStorageSize =
       cute::max(sizeof(typename CollectiveMainloop::SharedStorage),
@@ -224,10 +224,10 @@ class Sm80KernelMha {
       const auto [batch_idx, m_block_idx, kv_head_idx] = block_coord;
       const auto tidx = threadIdx.x;
 
-      // (q_packed_len, HEAD_DIM)
+      // (q_packed_len, BLK_K)
       detail::MHATile<Params> tile(params, batch_idx, kv_head_idx);
       auto [Q, O] = tile.template get_qo_tile<Element>();
-      // (kv_len, HEAD_DIM)
+      // (kv_len, BLK_K)
       auto [K, V] = tile.template get_kv_tile<Element>();
 
       // problem shape
@@ -252,22 +252,22 @@ class Sm80KernelMha {
       const int n_block_min = kLocal ? kv_idx_min / kBlockN : 0;
       const int n_block_max = cute::ceil_div(kv_idx_max, kBlockN);
 
-      // (BLK_M, HEAD_DIM)
-      Tensor gQ = local_tile(
-          Q, Shape<BLK_M, HEAD_DIM>{}, make_coord(m_block_idx, _0{}));
-      Tensor gO = local_tile(
-          O, Shape<BLK_M, HEAD_DIM>{}, make_coord(m_block_idx, _0{}));
-      // (BLK_M, HEAD_DIM) => (M, K)
+      // (BLK_M, BLK_K)
+      Tensor gQ =
+          local_tile(Q, Shape<BLK_M, BLK_K>{}, make_coord(m_block_idx, _0{}));
+      Tensor gO =
+          local_tile(O, Shape<BLK_M, BLK_K>{}, make_coord(m_block_idx, _0{}));
+      // (BLK_M, BLK_K) => (M, K)
       Tensor cQ = local_tile(make_identity_tensor(Q.shape()),
-                             Shape<BLK_M, HEAD_DIM>{},
+                             Shape<BLK_M, BLK_K>{},
                              make_coord(m_block_idx, _0{}));
 
-      // (BLK_N, HEAD_DIM, n)
-      Tensor gK = local_tile(K, Shape<BLK_N, HEAD_DIM>{}, make_coord(_, _0{}));
-      Tensor gV = local_tile(V, Shape<BLK_N, HEAD_DIM>{}, make_coord(_, _0{}));
-      // (BLK_N, HEAD_DIM, n) => (N, K)
+      // (BLK_N, BLK_K, n)
+      Tensor gK = local_tile(K, Shape<BLK_N, BLK_K>{}, make_coord(_, _0{}));
+      Tensor gV = local_tile(V, Shape<BLK_N, BLK_K>{}, make_coord(_, _0{}));
+      // (BLK_N, BLK_K, n) => (N, K)
       Tensor cKV = local_tile(make_identity_tensor(K.shape()),
-                              Shape<BLK_N, HEAD_DIM>{},
+                              Shape<BLK_N, BLK_K>{},
                               make_coord(_, _0{}));
 
       // (BLK_M, BLK_N, n) => (M, N)
@@ -278,7 +278,7 @@ class Sm80KernelMha {
 
       TiledMma tiled_mma;
       // accumulator: (MMA,MMA_M,MMA_K)
-      auto tOrAccO = partition_fragment_C(tiled_mma, Shape<BLK_M, HEAD_DIM>{});
+      auto tOrAccO = partition_fragment_C(tiled_mma, Shape<BLK_M, BLK_K>{});
       clear(tOrAccO);
 
       auto thr_mma = tiled_mma.get_slice(tidx);