xlite-dev
diff --git a/‎README.md
Lines changed: 2 additions & 1 deletion b/‎README.md
Lines changed: 2 additions & 1 deletion
diff --git a/‎sgemm/README.md
Lines changed: 99 additions & 60 deletions b/‎sgemm/README.md
Lines changed: 99 additions & 60 deletions
diff --git a/‎sgemm/sgemm.cu
Lines changed: 4 additions & 0 deletions b/‎sgemm/sgemm.cu
Lines changed: 4 additions & 0 deletions
diff --git a/‎sgemm/sgemm.py
Lines changed: 7 additions & 4 deletions b/‎sgemm/sgemm.py
Lines changed: 7 additions & 4 deletions
diff --git a/‎sgemm/sgemm_async.cu
Lines changed: 201 additions & 0 deletions b/‎sgemm/sgemm_async.cu
Lines changed: 201 additions & 0 deletions
@@ -77,7 +77,7 @@
 | ✔️ [safe_softmax_f16_f32](./softmax/softmax.cu)|f16|f32|[link](./softmax/)|⭐️⭐️|  
 | ✔️ [safe_softmax_f16x2_f32](./softmax/softmax.cu)|f16|f32|[link](./softmax/)|⭐️⭐️|  
 | ✔️ [safe_softmax_f16x8_pack_f32](./softmax/softmax.cu)|f16|f32|[link](./softmax/)|⭐️⭐️|  
-| ✔️ [online_softmax_f32](./softmax/softmax.cu)|f32|f32|[link](./softmax/)|⭐️⭐️|
+| ✔️ [online_safe_softmax_f32](./softmax/softmax.cu)|f32|f32|[link](./softmax/)|⭐️⭐️|
 | ✔️ [layer_norm_f32](./layer-norm/layer_norm.cu)|f32|f32|[link](./layer-norm/)|⭐️⭐️|  
 | ✔️ [layer_norm_f32x4](./layer-norm/layer_norm.cu)|f32|f32|[link](./layer-norm/)|⭐️⭐️|  
 | ✔️ [layer_norm_f16_f16](./layer-norm/layer_norm.cu)|f16|f16|[link](./layer-norm/)|⭐️⭐️|  
@@ -100,6 +100,7 @@
 | ✔️ [sgemm_t_8x8_sliced_k_f32x4](./sgemm/sgemm.cu)|f32|f32|[link](./sgemm/)|⭐️⭐️⭐️|  
 | ✔️ [sgemm_t_8x8_sliced_k...bcf](./sgemm/sgemm.cu)|f32|f32|[link](./sgemm/)|⭐️⭐️⭐️|  
 | ✔️ [sgemm_t_8x8_sliced_k...dbuf](./sgemm/sgemm.cu)|f32|f32|[link](./sgemm/)|⭐️⭐️⭐️|  
+| ✔️ [sgemm_t_8x8_sliced_k...async](./sgemm/sgemm_async.cu)|f32|f32|[link](./sgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_naive_f16](./hgemm/hgemm.cu)|f16|f16|[link](./hgemm/)|⭐️⭐️|  
 | ✔️ [hgemm_sliced_k_f16](./hgemm/hgemm.cu)|f16|f16|[link](./hgemm/)|⭐️⭐️⭐️|  
 | ✔️ [hgemm_t_8x8_sliced_k_f16x4](./hgemm/hgemm.cu)|f16|f16|[link](./hgemm/)|⭐️⭐️⭐️|  
 
@@ -692,6 +692,9 @@ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_offset(torch::Tensor a, torch::Tensor b
   );
 }
 
+// from sgemm_async.cu
+void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async(torch::Tensor a, torch::Tensor b, torch::Tensor c);
+
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   TORCH_BINDING_COMMON_EXTENSION(sgemm_naive_f32)
   TORCH_BINDING_COMMON_EXTENSION(sgemm_sliced_k_f32)
@@ -700,4 +703,5 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_offset)
   TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf)
   TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_offset)
+  TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async)
 }
@@ -8,7 +8,7 @@
 
 # Load the CUDA kernel as a python module
 lib = load(name='sgemm_lib', 
-           sources=['sgemm.cu'], 
+           sources=['sgemm.cu', 'sgemm_async.cu'], 
            extra_cuda_cflags=[
                "-O3",
                 "-U__CUDA_NO_HALF_OPERATORS__",
@@ -53,7 +53,7 @@ def run_benchmark(perf_func: callable,
     out_val = out.flatten().detach().cpu().numpy().tolist()[:3]
     out_val = [round(v, 8) for v in out_val]
     out_val = [f"{v:<12}" for v in out_val]
-    print(f"{out_info:>27}: {out_val}, time:{mean_time:.6f}ms")
+    print(f"{out_info:>32}: {out_val}, time:{mean_time:.6f}ms")
     if show_all: print(out)
     return out.clone(), mean_time
 
@@ -63,7 +63,7 @@ def run_benchmark(perf_func: callable,
 Ks = [1024, 2048]
 MNKs = [(M, N, K) for M in Ms for N in Ns for K in Ks]
 for (M, N, K) in MNKs:
-    print("-" * 100)
+    print("-" * 110)
     print(" " * 45 + f"M={M}, N={N}, K={K}")
     a = torch.randn((M, K)).cuda().float().contiguous() 
     b = torch.randn((K, N)).cuda().float().contiguous() 
@@ -82,6 +82,9 @@ def run_benchmark(perf_func: callable,
                   a, b, "f32x4(t8x8dbuf)", c)
     run_benchmark(lib.sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_offset, 
                   a, b, "f32x4(t8x8dbuf+offset)", c)
+    print("-" * 52 + "Async" + "-" * 53)
+    run_benchmark(lib.sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async, 
+                  a, b, "f32x4(t8x8dbuf+async)",  c)
     run_benchmark(partial(torch.matmul, out=c),            
                   a, b, "f32_th")
-    print("-" * 100)
+    print("-" * 110)
@@ -0,0 +1,201 @@
+#include <stdio.h>
+#include <stdlib.h>
+#include <float.h>
+#include <vector>
+#include <algorithm>
+#include <cuda_runtime.h>
+#include <cuda_fp16.h>
+#include <cuda_bf16.h>
+#include <cuda_fp8.h>
+#include <torch/types.h>
+#include <torch/extension.h>
+
+#define INT4(value) (reinterpret_cast<int4*>(&(value))[0])
+#define FLOAT4(value) (reinterpret_cast<float4*>(&(value))[0])
+#define HALF2(value) (reinterpret_cast<half2*>(&(value))[0])
+#define BFLOAT2(value) (reinterpret_cast<__nv_bfloat162*>(&(value))[0])
+#define LDST64BITS(value) (reinterpret_cast<float2*>(&(value))[0])
+#define LDST128BITS(value) (reinterpret_cast<float4*>(&(value))[0])
+#define CP_ASYNC_COMMIT_GROUP() asm volatile("cp.async.commit_group;\n" ::)
+#define CP_ASYNC_WAIT_ALL() asm volatile("cp.async.wait_all;\n" ::)
+#define CP_ASYNC_WAIT_GROUP(n) asm volatile("cp.async.wait_group %0;\n" ::"n"(n))
+// ca(cache all, L1 + L2): support 4, 8, 16 bytes, cg(cache global, L2): only support 16 bytes.
+#define CP_ASYNC_CA(dst, src, bytes) asm volatile("cp.async.ca.shared.global.L2::128B [%0], [%1], %2;\n" ::"r"(dst), "l"(src), "n"(bytes))
+#define CP_ASYNC_CG(dst, src, bytes) asm volatile("cp.async.cg.shared.global.L2::128B [%0], [%1], %2;\n" ::"r"(dst), "l"(src), "n"(bytes))
+
+
+template<const int BM=128, const int BN=128, const int BK=8, 
+         const int TM=8, const int TN=8, const int OFFSET=0>
+__global__ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async_kernel(
+  float* a, float* b, float* c, const int M, const int N, const int K) {
+
+  const int bx = blockIdx.x;
+  const int by = blockIdx.y;
+  const int tx = threadIdx.x;
+  const int ty = threadIdx.y;
+  const int tid = ty * blockDim.x + tx;
+
+  __shared__ float s_a[2][BK][BM + OFFSET];
+  __shared__ float s_b[2][BK][BN + OFFSET];
+  
+  float r_comp_a[TM];
+  float r_comp_b[TN];
+  float r_c[TM][TN] = {0.0};
+
+  int load_a_smem_m = tid / 2; // tid / 2，(0,1,2,...,128)
+  int load_a_smem_k = (tid & 1) << 2; // (0,4)
+  int load_b_smem_k = tid / 32; // 0~8
+  int load_b_smem_n = (tid & 31) << 2; // (0,4,8,12,...,124)
+  int load_a_gmem_m = by * BM + load_a_smem_m;
+  int load_b_gmem_n = bx * BN + load_b_smem_n;
+
+  {
+    int load_a_gmem_k = load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+
+    uint32_t load_b_smem_ptr = __cvta_generic_to_shared(
+      &s_b[0][load_b_smem_k][load_b_smem_n]);
+    // 1 cp.async issue, 16 bytes = 4 float.
+    CP_ASYNC_CA(load_b_smem_ptr, &b[load_b_gmem_addr], 16);
+    CP_ASYNC_COMMIT_GROUP();
+
+    #pragma unroll
+    for (int i = 0; i < 4; ++i) { 
+      // 4 cp.async issues, 4 bytes = 1 float.
+      uint32_t load_a_smem_ptr = __cvta_generic_to_shared(
+        &s_a[0][load_a_smem_k + i][load_a_smem_m]);
+      CP_ASYNC_CA(load_a_smem_ptr, &a[load_a_gmem_addr + i], 4);
+    }
+    CP_ASYNC_COMMIT_GROUP();
+    CP_ASYNC_WAIT_GROUP(0);
+  }
+  __syncthreads(); 
+
+  for (int bk = 1; bk < (K + BK - 1) / BK; bk++) {
+
+    int smem_sel = (bk - 1) & 1;
+    int smem_sel_next = bk & 1;
+
+    int load_a_gmem_k = bk * BK + load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = bk * BK + load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+   
+    uint32_t load_b_smem_ptr = __cvta_generic_to_shared(
+      &s_b[smem_sel_next][load_b_smem_k][load_b_smem_n]);
+    // 1 cp.async issue, 16 bytes = 4 float.
+    CP_ASYNC_CA(load_b_smem_ptr, &b[load_b_gmem_addr], 16);
+    CP_ASYNC_COMMIT_GROUP();
+
+    #pragma unroll
+    for (int i = 0; i < 4; ++i) { 
+      // 4 cp.async issues, 4 bytes = 1 float.
+      uint32_t load_a_smem_ptr = __cvta_generic_to_shared(
+        &s_a[smem_sel_next][load_a_smem_k + i][load_a_smem_m]);
+      CP_ASYNC_CA(load_a_smem_ptr, &a[load_a_gmem_addr + i], 4);
+    }
+    CP_ASYNC_COMMIT_GROUP();
+
+    #pragma unroll
+    for (int tk = 0; tk < BK; tk++) {
+      FLOAT4(r_comp_a[0]) = FLOAT4(s_a[smem_sel][tk][ty * TM / 2     ]);
+      FLOAT4(r_comp_a[4]) = FLOAT4(s_a[smem_sel][tk][ty * TM / 2 + BM / 2]);
+      FLOAT4(r_comp_b[0]) = FLOAT4(s_b[smem_sel][tk][tx * TN / 2     ]);
+      FLOAT4(r_comp_b[4]) = FLOAT4(s_b[smem_sel][tk][tx * TN / 2 + BN / 2]);
+
+      #pragma unroll
+      for (int tm = 0; tm < TM; tm++) {
+        #pragma unroll
+        for (int tn = 0; tn < TN; tn++) {
+          r_c[tm][tn] = __fmaf_rn(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+        }
+      }
+    }
+    
+    CP_ASYNC_WAIT_GROUP(0);
+    __syncthreads();
+  }
+  
+  #pragma unroll
+  for (int tk = 0; tk < BK; tk++) {
+    FLOAT4(r_comp_a[0]) = FLOAT4(s_a[1][tk][ty * TM / 2     ]);
+    FLOAT4(r_comp_a[4]) = FLOAT4(s_a[1][tk][ty * TM / 2 + BM / 2]);
+    FLOAT4(r_comp_b[0]) = FLOAT4(s_b[1][tk][tx * TN / 2     ]);
+    FLOAT4(r_comp_b[4]) = FLOAT4(s_b[1][tk][tx * TN / 2 + BN / 2]);
+
+    #pragma unroll
+    for (int tm = 0; tm < TM; tm++) {
+      #pragma unroll
+      for (int tn = 0; tn < TN; tn++) {
+        r_c[tm][tn] = __fmaf_rn(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+      }
+    }
+  }
+
+  #pragma unroll
+  for (int i = 0; i < TM / 2; i++) {
+    int store_c_gmem_m = by * BM + ty * TM / 2 + i;
+    int store_c_gmem_n = bx * BN + tx * TN / 2;
+    int store_c_gmem_addr = store_c_gmem_m * N + store_c_gmem_n;
+    FLOAT4(c[store_c_gmem_addr]) = FLOAT4(r_c[i][0]);
+    FLOAT4(c[store_c_gmem_addr + BN / 2]) = FLOAT4(r_c[i][4]);
+  }
+  #pragma unroll
+  for (int i = 0; i < TM / 2; i++) {
+    int store_c_gmem_m = by * BM + BM / 2 + ty * TM / 2 + i;
+    int store_c_gmem_n = bx * BN + tx * TN / 2;
+    int store_c_gmem_addr = store_c_gmem_m * N + store_c_gmem_n;
+    FLOAT4(c[store_c_gmem_addr]) = FLOAT4(r_c[i + TM / 2][0]);
+    FLOAT4(c[store_c_gmem_addr + BN / 2]) = FLOAT4(r_c[i + TM / 2][4]);
+  }
+}
+
+// TODO: sgemm_t_8x8_sliced_k16_f32x4_bcf_dbuf_{async}_kernel
+
+// --------------------- PyTorch bindings for custom kernel -----------------------
+#define STRINGFY(str) #str
+#define TORCH_BINDING_COMMON_EXTENSION(func) \
+  m.def(STRINGFY(func), &func, STRINGFY(func));
+
+#define CHECK_TORCH_TENSOR_DTYPE(T, th_type)                 \
+if(((T).options().dtype() != (th_type))) {                   \
+  std::cout << "Tensor Info:" << (T).options() << std::endl; \
+  throw std::runtime_error("values must be "#th_type);       \
+}
+
+#define CHECK_TORCH_TENSOR_SHAPE(T, S0, S1)           \
+if (((T).size(0) != (S0)) || ((T).size(1) != (S1))) { \
+  throw std::runtime_error("Tensor size mismatch!");  \
+}
+
+
+void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async(
+  torch::Tensor a, torch::Tensor b, torch::Tensor c) {
+  CHECK_TORCH_TENSOR_DTYPE(a, torch::kFloat32)
+  CHECK_TORCH_TENSOR_DTYPE(b, torch::kFloat32)
+  CHECK_TORCH_TENSOR_DTYPE(c, torch::kFloat32)
+  const int M = a.size(0);
+  const int K = a.size(1);
+  const int N = b.size(1); 
+  CHECK_TORCH_TENSOR_SHAPE(a, M, K)
+  CHECK_TORCH_TENSOR_SHAPE(b, K, N)
+  CHECK_TORCH_TENSOR_SHAPE(c, M, N)
+  constexpr int BM = 128;
+  constexpr int BN = 128;
+  constexpr int BK = 8; 
+  constexpr int TM = 8;
+  constexpr int TN = 8;
+
+  dim3 block(BN/TN, BM/TM);
+  dim3 grid((N + BN - 1) / BN, (M + BM - 1) / BM);
+
+  sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async_kernel<
+    BM, BN, BK, TM, TN><<<grid, block>>>(
+    reinterpret_cast<float*>(a.data_ptr()),
+    reinterpret_cast<float*>(b.data_ptr()),
+    reinterpret_cast<float*>(c.data_ptr()),
+    M, N, K
+  );
+}
Original file line number	Diff line number	Diff line change
`@@ -692,6 +692,9 @@ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_offset(torch::Tensor a, torch::Tensor b`
`692`	`692`	`);`
`693`	`693`	`}`
`694`	`694`
	`695`	`+// from sgemm_async.cu`
	`696`	`+void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async(torch::Tensor a, torch::Tensor b, torch::Tensor c);`
	`697`	`+`
`695`	`698`	`PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {`
`696`	`699`	`TORCH_BINDING_COMMON_EXTENSION(sgemm_naive_f32)`
`697`	`700`	`TORCH_BINDING_COMMON_EXTENSION(sgemm_sliced_k_f32)`
`@@ -700,4 +703,5 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {`
`700`	`703`	`TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_offset)`
`701`	`704`	`TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf)`
`702`	`705`	`TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_offset)`
	`706`	`+ TORCH_BINDING_COMMON_EXTENSION(sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_async)`
`703`	`707`	`}`