Migrate GenAI kv cache kernels to FBGEMM_LAUNCH_KERNEL, pt 4 (#4895)

q10 · facebook-github-bot · commit 944647a09e9c · 2025-09-18T21:38:55.000-07:00
Summary: Pull Request resolved: #4895 - Migrate GenAI kv cache kernels to `FBGEMM_LAUNCH_KERNEL`, pt 4 Reviewed By: cthi Differential Revision: D82773258 fbshipit-source-id: f2684f75eb09a85aa918305fbde0efaaa0655b64
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_convert.cu b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_convert.cu
@@ -23,6 +23,7 @@
 #endif
 
 #include "fbgemm_gpu/utils/cuda_block_count.h"
+#include "fbgemm_gpu/utils/kernel_launcher.cuh"
 #include "fbgemm_gpu/utils/vec_quant.cuh"
 
 #include <torch/torch.h>
@@ -47,12 +48,12 @@ namespace fbgemm_gpu {
  * 32-63 to convert the V tensors. NV only has threads 0-31 per warp.
  */
 __global__ void convert_e4m3fn_kv_cache_to_e4m3fnuz_inplace_kernel(
-    at::PackedTensorAccessor64<uint8_t, 5, at::RestrictPtrTraits>
+    pta::PackedTensorAccessor64<uint8_t, 5, at::RestrictPtrTraits>
         cache_K, // [N_H_L][B][MAX_T][N_KVH][D_H]
-    at::PackedTensorAccessor64<uint8_t, 5, at::RestrictPtrTraits>
+    pta::PackedTensorAccessor64<uint8_t, 5, at::RestrictPtrTraits>
         cache_V, // [N_H_L][B][MAX_T][N_KVH][D_H]
-    at::PackedTensorAccessor64<int32_t, 5, at::RestrictPtrTraits> qparam_K,
-    at::PackedTensorAccessor64<int32_t, 5, at::RestrictPtrTraits> qparam_V) {
+    pta::PackedTensorAccessor64<int32_t, 5, at::RestrictPtrTraits> qparam_K,
+    pta::PackedTensorAccessor64<int32_t, 5, at::RestrictPtrTraits> qparam_V) {
   auto N_KVH = cache_K.size(3);
   auto MAX_T = cache_K.size(2);
   auto D_H = cache_K.size(4);
@@ -133,17 +134,16 @@ void convert_e4m3fn_kv_cache_to_e4m3fnuz_inplace(
   dim3 blocks(N_H_L, B, std::max<int32_t>(1, kMaxBlocks / (B * N_H_L)));
   dim3 threads(kThreadsPerWarp, kWarpsPerBlock);
 
-  convert_e4m3fn_kv_cache_to_e4m3fnuz_inplace_kernel<<<
+  FBGEMM_LAUNCH_KERNEL(
+      (convert_e4m3fn_kv_cache_to_e4m3fnuz_inplace_kernel),
       blocks,
       threads,
       0,
-      at::cuda::getCurrentCUDAStream()>>>(
-      cache_K.packed_accessor64<uint8_t, 5, at::RestrictPtrTraits>(),
-      cache_V.packed_accessor64<uint8_t, 5, at::RestrictPtrTraits>(),
-      qparam_K.packed_accessor64<int32_t, 5, at::RestrictPtrTraits>(),
-      qparam_V.packed_accessor64<int32_t, 5, at::RestrictPtrTraits>());
-
-  C10_CUDA_KERNEL_LAUNCH_CHECK();
+      at::cuda::getCurrentCUDAStream(),
+      PTA_B(cache_K, uint8_t, 5, 64),
+      PTA_B(cache_V, uint8_t, 5, 64),
+      PTA_B(qparam_K, int32_t, 5, 64),
+      PTA_B(qparam_V, int32_t, 5, 64));
 }
 #else
 void convert_e4m3fn_kv_cache_to_e4m3fnuz_inplace(
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_dequantize.cu b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_dequantize.cu
@@ -25,6 +25,7 @@
 #include <cub/cub.cuh>
 
 #include "fbgemm_gpu/utils/cuda_block_count.h"
+#include "fbgemm_gpu/utils/kernel_launcher.cuh"
 #include "fbgemm_gpu/utils/vec_quant.cuh"
 
 #include <torch/torch.h>
@@ -113,8 +114,12 @@ __global__ void dequantize_int4_cache_kernel(
 }
 
 #define CALL_DEQUANTIZE_INT4_CACHE_GROUPWISE_KERNEL(NUM_GROUPS, ...)          \
-  dequantize_int4_cache_kernel<                                               \
-      NUM_GROUPS><<<blocks, threads, 0, at::cuda::getCurrentCUDAStream()>>>(  \
+  FBGEMM_LAUNCH_KERNEL(                                                       \
+      (dequantize_int4_cache_kernel<NUM_GROUPS>),                             \
+      blocks,                                                                 \
+      threads,                                                                \
+      0,                                                                      \
+      at::cuda::getCurrentCUDAStream(),                                       \
       cache_K.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),         \
       cache_V.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),         \
       kv_seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),       \
@@ -539,16 +544,19 @@ std::tuple<at::Tensor, at::Tensor> dequantize_fp8_cache(
   dim3 blocks(B, std::max<int32_t>(1, kMaxBlocks / B));
   dim3 threads(kThreadsPerWarp, kWarpsPerBlock);
 #define CALL_DEQUANTIZE_FP8_CACHE(EXTERNAL_Q_PARAM)                           \
-  const auto deq_fn = dequantize_fp8_cache_kernel<EXTERNAL_Q_PARAM>;          \
-  deq_fn<<<blocks, threads, 0, at::cuda::getCurrentCUDAStream()>>>(           \
+  FBGEMM_LAUNCH_KERNEL(                                                       \
+      (dequantize_fp8_cache_kernel<EXTERNAL_Q_PARAM>),                        \
+      blocks,                                                                 \
+      threads,                                                                \
+      0,                                                                      \
+      at::cuda::getCurrentCUDAStream(),                                       \
       cache_K.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),         \
       cache_V.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),         \
       kv_seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),       \
       cache_K_dq.packed_accessor64<at::BFloat16, 4, at::RestrictPtrTraits>(), \
       cache_V_dq.packed_accessor64<at::BFloat16, 4, at::RestrictPtrTraits>(), \
       qparam_k_ptr,                                                           \
-      qparam_v_ptr);                                                          \
-  C10_CUDA_KERNEL_LAUNCH_CHECK()
+      qparam_v_ptr);
   if (block_tables_ptr == nullptr) {
     if (qparam_k_ptr) {
       CALL_DEQUANTIZE_FP8_CACHE(true);
@@ -557,11 +565,12 @@ std::tuple<at::Tensor, at::Tensor> dequantize_fp8_cache(
     }
 #undef CALL_DEQUANTIZE_FP8_CACHE
   } else {
-    dequantize_fp8_cache_kernel_paged<<<
+    FBGEMM_LAUNCH_KERNEL(
+        (dequantize_fp8_cache_kernel_paged),
         blocks,
         threads,
         0,
-        at::cuda::getCurrentCUDAStream()>>>(
+        at::cuda::getCurrentCUDAStream(),
         cache_K.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),
         cache_V.packed_accessor64<uint8_t, 4, at::RestrictPtrTraits>(),
         kv_seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
@@ -572,7 +581,6 @@ std::tuple<at::Tensor, at::Tensor> dequantize_fp8_cache(
         block_tables_ptr,
         block_tables_b_stride,
         page_size);
-    C10_CUDA_KERNEL_LAUNCH_CHECK();
   }
 
   return {cache_K_dq, cache_V_dq};
@@ -752,11 +760,13 @@ at::Tensor quantize_qkv_per_head(
   auto scale_q = at::zeros({B, N_KVH_L}, XQ_O.options().dtype(at::kFloat));
   float* const scale_q_ptr = scale_q.data_ptr<float>();
   // Launch the kernel
-  quantizeQKVPerHead<<<
+
+  FBGEMM_LAUNCH_KERNEL(
+      (quantizeQKVPerHead),
       grid_size,
       block_size,
       0,
-      at::cuda::getCurrentCUDAStream()>>>(
+      at::cuda::getCurrentCUDAStream(),
       xqkv_amax_row.data_ptr<float>(),
       xqkv.data_ptr<at::BFloat16>(),
       varseq_seqpos.data_ptr<int32_t>(),
@@ -770,8 +780,8 @@ at::Tensor quantize_qkv_per_head(
       cache_V.packed_accessor64<at::Float8_e4m3fn, 4, at::RestrictPtrTraits>(),
       scale_q_ptr,
       qparam_k_ptr,
-      qparam_v_ptr);
-  C10_CUDA_KERNEL_LAUNCH_CHECK();
+      qparam_v_ptr,
+      64.f);
   return scale_q;
 }
 #else