[Docs] Add docs for HGEMM/SGEMM double buffers (#58)

DefTruth · web-flow · commit cb869e283f09 · 2024-09-30T14:19:43.000+08:00
* Update README.md

* Update hgemm.cu

* Update hgemm.cu

* Update README.md

* Update README.md

* Update README.md

* Update sgemm.cu

* Update README.md

* Update README.md

* Update README.md
diff --git a/hgemm/README.md b/hgemm/README.md
@@ -26,14 +26,103 @@ SM调度单位为一个warp（一个warp内32个Thread），shared_memory 可以
 - 多个线程读同一个数据时，仅有一个线程读，然后broadcast到其他线程
 - 多个线程写同一个数据时，仅会有一个线程写成功
 
-[Using Shared Memory in CUDA C/C++](https://developer.nvidia.com/blog/using-shared-memory-cuda-cc/)中指出，我们还可以通过 `cudaDeviceSetSharedMemConfig()` 函数设置默认Bank Size（默认为4 bytes）来避免bank conflicts，可设置为cudaSharedMemBankSizeFourByte或者cudaSharedMemBankSizeEightByte。对于某些场景来说，设置cudaSharedMemBankSizeEightByte或许更合格式。
+NVIDIA的[文章](https://developer.nvidia.com/blog/using-shared-memory-cuda-cc/)中指出，我们还可以通过 `cudaDeviceSetSharedMemConfig()` 函数设置默认Bank Size（默认为4 bytes）来避免bank conflicts，可设置为cudaSharedMemBankSizeFourByte或者cudaSharedMemBankSizeEightByte。对于某些场景来说，设置cudaSharedMemBankSizeEightByte或许更加合适，比如使用double数据类型时。 
+
+```C
+cudaDeviceSetSharedMemConfig(cudaSharedMemBankSizeEightByte);
+```
+
+## 双缓冲 Double Buffers
+
+本仓库实现的HGEMM Double Buffers策略如下：1）主循环从bk = 1 开始，第一次数据加载在主循环之前，最后一次计算在主循环之后，这是pipeline 的特点决定的；2）由于计算和下一次访存使用的Shared Memory不同，因此主循环中每次循环只需要一次__syncthreads()即可，对比非double buffers版本，总共节省了 ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，HFMA计算使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。HFMA计算，从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于加载下一块BK需要的数据到共享内存；3）由于GPU不能向CPU那样支持乱序执行，主循环中需要先将下一次循环计算需要的Gloabal Memory中的数据load 到寄存器，然后进行本次计算，之后再将load到寄存器中的数据写到Shared Memory，这样在LDG指令向Global Memory做load时，不会影响后续HFMA及其它运算指令的 launch 执行，也就达到了Double Buffers的目的。
+
+```C
+  // bk = 0 is loading here, buffer 0
+  {
+    int load_a_gmem_k = load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+    LDST64BITS(r_load_a[0]) = LDST64BITS(a[load_a_gmem_addr]);
+    LDST64BITS(r_load_b[0]) = LDST64BITS(b[load_b_gmem_addr]);
+
+    s_a[0][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
+    s_a[0][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
+    s_a[0][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
+    s_a[0][load_a_smem_k + 3][load_a_smem_m] = r_load_a[3];
+    LDST64BITS(s_b[0][load_b_smem_k][load_b_smem_n]) = LDST64BITS(r_load_b[0]);
+  }
+  // Without this synchronization, accuracy may occasionally be abnormal.
+  __syncthreads(); 
+  
+  // bk start from 1，需要注意的是，虽然 bk 从 1 开始，但实际上 bk=1时，使用的是
+  // 第0块BK中的数据（已经加载到共享内存s_a[0]和s_b[0]）；bk=2时，实际计算的是第1块
+  // BK中的数据。其余以此类推，这个循环结束后，剩下最后一块BK大小的数据需要计算。
+  for (int bk = 1; bk < (K + BK - 1) / BK; bk++) {
+
+    int smem_sel = (bk - 1) & 1; // bk 1->0, bk 2->1, bk 3->0, ...
+    int smem_sel_next = bk & 1;  // bk 1->1, bk 2->0, bk 3->1, ...
+
+    int load_a_gmem_k = bk * BK + load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = bk * BK + load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+    LDST64BITS(r_load_a[0]) = LDST64BITS(a[load_a_gmem_addr]);
+    LDST64BITS(r_load_b[0]) = LDST64BITS(b[load_b_gmem_addr]);
+    
+    #pragma unroll
+    for (int tk = 0; tk < BK; tk++) {
+      LDST128BITS(r_comp_a[0]) = LDST128BITS(s_a[smem_sel][tk][ty * TM]);
+      LDST128BITS(r_comp_b[0]) = LDST128BITS(s_b[smem_sel][tk][tx * TN]);
+
+      #pragma unroll
+      for (int tm = 0; tm < TM; tm++) {
+        #pragma unroll
+        for (int tn = 0; tn < TN; tn++) {
+          r_c[tm][tn] = __hfma(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+        }
+      }
+    }
+
+    // 对比非double buffers版本，此处不需要__syncthreads()，总共节省了
+    // ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，HFMA计算
+    // 使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。
+    // 从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于
+    // 加载下一块BK需要的数据到共享内存。
+    s_a[smem_sel_next][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
+    s_a[smem_sel_next][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
+    s_a[smem_sel_next][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
+    s_a[smem_sel_next][load_a_smem_k + 3][load_a_smem_m] = r_load_a[3];
+    LDST128BITS(s_b[smem_sel_next][load_b_smem_k][load_b_smem_n]) = LDST128BITS(r_load_b[0]);
+
+    __syncthreads();
+  }
+  
+  // 计算剩下最后一块BK
+  #pragma unroll
+  for (int tk = 0; tk < BK; tk++) {
+    LDST128BITS(r_comp_a[0]) = LDST128BITS(s_a[1][tk][ty * TM]);
+    LDST128BITS(r_comp_b[0]) = LDST128BITS(s_b[1][tk][tx * TN]);
+
+    #pragma unroll
+    for (int tm = 0; tm < TM; tm++) {
+      #pragma unroll
+      for (int tn = 0; tn < TN; tn++) {
+        r_c[tm][tn] = __hfma(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+      }
+    }
+  }
+
+```
+
 
 ## 参考文献 
 
 - [CUDA编程概念】一、什么是bank conflict？](https://zhuanlan.zhihu.com/p/659142274)
 - [解决 bank conflict](https://github.com/PaddleJitLab/CUDATutorial/blob/develop/docs/09_optimize_reduce/02_bank_conflict/README.md)
 - [Bank Conflict free 的几种方式](https://zhuanlan.zhihu.com/p/722286440)
 - [Using Shared Memory in CUDA C/C++](https://developer.nvidia.com/blog/using-shared-memory-cuda-cc/)
+- [CUDA（三）：通用矩阵乘法：从入门到熟练](https://zhuanlan.zhihu.com/p/657632577)
 
 ## 测试
 
diff --git a/hgemm/hgemm.cu b/hgemm/hgemm.cu
@@ -762,7 +762,9 @@ __global__ void hgemm_t_8x8_sliced_k_f16x8_pack_bcf_dbuf_kernel(
   // Without this synchronization, accuracy may occasionally be abnormal.
   __syncthreads(); 
   
-  // bk start from 1
+  // bk start from 1，需要注意的是，虽然 bk 从 1 开始，但实际上 bk=1时，使用的是
+  // 第0块BK中的数据（已经加载到共享内存s_a[0]和s_b[0]）；bk=2时，实际计算的是第1块
+  // BK中的数据。其余以此类推，这个循环结束后，剩下最后一块BK大小的数据需要计算。
   for (int bk = 1; bk < (K + BK - 1) / BK; bk++) {
 
     int smem_sel = (bk - 1) & 1; // bk 1->0, bk 2->1, bk 3->0, ...
@@ -789,6 +791,11 @@ __global__ void hgemm_t_8x8_sliced_k_f16x8_pack_bcf_dbuf_kernel(
       }
     }
 
+    // 对比非double buffers版本，此处不需要__syncthreads()，总共节省了
+    // ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，HFMA计算
+    // 使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。
+    // 从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于
+    // 加载下一块BK需要的数据到共享内存。
     s_a[smem_sel_next][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
     s_a[smem_sel_next][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
     s_a[smem_sel_next][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
@@ -798,7 +805,7 @@ __global__ void hgemm_t_8x8_sliced_k_f16x8_pack_bcf_dbuf_kernel(
     __syncthreads();
   }
   
-  // buffer 1
+  // 计算剩下最后一块BK
   #pragma unroll
   for (int tk = 0; tk < BK; tk++) {
     LDST128BITS(r_comp_a[0]) = LDST128BITS(s_a[1][tk][ty * TM]);
@@ -1165,6 +1172,7 @@ void hgemm_t_8x8_sliced_k_f16x8_pack_bcf_dbuf(torch::Tensor a, torch::Tensor b,
   constexpr int BK = 8; 
   constexpr int TM = 8;
   constexpr int TN = 8;
+  // cudaDeviceSetSharedMemConfig(cudaSharedMemBankSizeEightByte);
 
   dim3 block(BN/TN, BM/TM);
   dim3 grid((N + BN - 1) / BN, (M + BM - 1) / BM);
diff --git a/sgemm/README.md b/sgemm/README.md
@@ -11,14 +11,134 @@
 - [X] sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_kernel (bank conflicts free, double buffers)
 - [X] PyTorch bindings
 
+## 共享内存 Bank Conflicts
+
+含义：在访问shared memory时，因多个线程读写同一个Bank中的不同数据地址时，导致shared memory 并发读写 退化 成顺序读写的现象叫做Bank Conflict；
+
+![](https://github.com/PaddleJitLab/CUDATutorial/blob/develop/docs/09_optimize_reduce/02_bank_conflict/images/ef322be7c3e5b6b9be69d2b90e88083f50569a58a97129f348e483b946ab4edf.png)
+
+SM调度单位为一个warp（一个warp内32个Thread），shared_memory 可以 被一个warp中的所有（32个）线程进行访问，shared_memory 映射到大小相等的32个Bank上，Bank的数据读取带宽为32bit / cycle (4 bytes)，因此，主要需要考虑一个Warp内32线程的访问共享内存时的bank冲突。
+对于多个线程读取同一个Bank数据时（不同地址），硬件把内存读写请求，拆分成 conflict-free requests，进行顺序读写，此时将会触发多次内存事务。特别地，当一个warp中的所有线程读写同一个地址时，会触发broadcast机制，此时不会退化成顺序读写。上面提到触发broadcast机制的条件是all threads acess same address，但在翻阅cuda-c-programming-guide以及最新版本的[NVProfGuide](https://docs.nvidia.com/nsight-compute/ProfilingGuide/index.html) 时，发现只要是多个thread 读写就会触发broadcast（不需要All）。
+  
+- 多个线程读同一个数据时，仅有一个线程读，然后broadcast到其他线程
+- 多个线程写同一个数据时，仅会有一个线程写成功
+
+NVIDIA的[文章](https://developer.nvidia.com/blog/using-shared-memory-cuda-cc/)中指出，我们还可以通过 `cudaDeviceSetSharedMemConfig()` 函数设置默认Bank Size（默认为4 bytes）来避免bank conflicts，可设置为cudaSharedMemBankSizeFourByte或者cudaSharedMemBankSizeEightByte。对于某些场景来说，设置cudaSharedMemBankSizeEightByte或许更加合适，比如使用double数据类型时。 
+
+```C
+cudaDeviceSetSharedMemConfig(cudaSharedMemBankSizeEightByte);
+```
+
+## 双缓冲 Double Buffers
+
+本仓库实现的SGEMM Double Buffers策略如下：1）主循环从bk = 1 开始，第一次数据加载在主循环之前，最后一次计算在主循环之后，这是pipeline 的特点决定的；2）由于计算和下一次访存使用的Shared Memory不同，因此主循环中每次循环只需要一次__syncthreads()即可，对比非double buffers版本，总共节省了 ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，FFMA计算使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。FFMA计算，从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于加载下一块BK需要的数据到共享内存；3）由于GPU不能向CPU那样支持乱序执行，主循环中需要先将下一次循环计算需要的Gloabal Memory中的数据load 到寄存器，然后进行本次计算，之后再将load到寄存器中的数据写到Shared Memory，这样在LDG指令向Global Memory做load时，不会影响后续HFMA及其它运算指令的 launch 执行，也就达到了Double Buffers的目的。
+
+```C
+  // 1）主循环从bk = 1 开始，第一次数据加载在主循环之前，最后一次计算在主循环之后，这是pipeline 的特点决定的；
+  // 2）由于计算和下一次访存使用的Shared Memory不同，因此主循环中每次循环只需要一次__syncthreads()即可
+  // 3）由于GPU不能向CPU那样支持乱序执行，主循环中需要先将下一次循环计算需要的Gloabal Memory中的数据load 
+  // 到寄存器，然后进行本次计算，之后再将load到寄存器中的数据写到Shared Memory，这样在LDG指令向Global 
+  // Memory做load时，不会影响后续FFMA及其它运算指令的 launch 执行，也就达到了Double Buffering的目的。
+  
+  // bk = 0 is loading here, buffer 0
+
+  {
+    int load_a_gmem_k = load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+    FLOAT4(r_load_a[0]) = FLOAT4(a[load_a_gmem_addr]);
+    FLOAT4(r_load_b[0]) = FLOAT4(b[load_b_gmem_addr]);
+
+    s_a[0][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
+    s_a[0][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
+    s_a[0][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
+    s_a[0][load_a_smem_k + 3][load_a_smem_m] = r_load_a[3];
+    FLOAT4(s_b[0][load_b_smem_k][load_b_smem_n]) = FLOAT4(r_load_b[0]);
+  }
+  // Without this synchronization, accuracy may occasionally be abnormal.
+  __syncthreads(); 
+
+  // bk start from 1，需要注意的是，虽然 bk 从 1 开始，但实际上 bk=1时，使用的是
+  // 第0块BK中的数据（已经加载到共享内存s_a[0]和s_b[0]）；bk=2时，实际计算的是第1块
+  // BK中的数据。其余以此类推，这个循环结束后，剩下最后一块BK大小的数据需要计算。
+  for (int bk = 1; bk < (K + BK - 1) / BK; bk++) {
+
+    int smem_sel = (bk - 1) & 1;
+    int smem_sel_next = bk & 1;
+
+    int load_a_gmem_k = bk * BK + load_a_smem_k;
+    int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
+    int load_b_gmem_k = bk * BK + load_b_smem_k;
+    int load_b_gmem_addr = load_b_gmem_k * N + load_b_gmem_n;
+    FLOAT4(r_load_a[0]) = FLOAT4(a[load_a_gmem_addr]);
+    FLOAT4(r_load_b[0]) = FLOAT4(b[load_b_gmem_addr]);
+
+    #pragma unroll
+    for (int tk = 0; tk < BK; tk++) {
+      FLOAT4(r_comp_a[0]) = FLOAT4(s_a[smem_sel][tk][ty * TM / 2     ]);
+      FLOAT4(r_comp_a[4]) = FLOAT4(s_a[smem_sel][tk][ty * TM / 2 + BM / 2]);
+      FLOAT4(r_comp_b[0]) = FLOAT4(s_b[smem_sel][tk][tx * TN / 2     ]);
+      FLOAT4(r_comp_b[4]) = FLOAT4(s_b[smem_sel][tk][tx * TN / 2 + BN / 2]);
+
+      #pragma unroll
+      for (int tm = 0; tm < TM; tm++) {
+        #pragma unroll
+        for (int tn = 0; tn < TN; tn++) {
+          // r_c[tm][tn] += r_comp_a[tm] * r_comp_b[tn];
+          r_c[tm][tn] = __fmaf_rn(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+        }
+      }
+    }
+    
+    // 对比非double buffers版本，此处不需要__syncthreads()，总共节省了
+    // ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，HFMA计算
+    // 使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。
+    // 从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于
+    // 加载下一块BK需要的数据到共享内存。
+    s_a[smem_sel_next][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
+    s_a[smem_sel_next][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
+    s_a[smem_sel_next][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
+    s_a[smem_sel_next][load_a_smem_k + 3][load_a_smem_m] = r_load_a[3];
+    FLOAT4(s_b[smem_sel_next][load_b_smem_k][load_b_smem_n]) = FLOAT4(r_load_b[0]);
+
+    __syncthreads();
+  }
+  
+  // 计算剩下最后一块BK
+  #pragma unroll
+  for (int tk = 0; tk < BK; tk++) {
+    FLOAT4(r_comp_a[0]) = FLOAT4(s_a[1][tk][ty * TM / 2     ]);
+    FLOAT4(r_comp_a[4]) = FLOAT4(s_a[1][tk][ty * TM / 2 + BM / 2]);
+    FLOAT4(r_comp_b[0]) = FLOAT4(s_b[1][tk][tx * TN / 2     ]);
+    FLOAT4(r_comp_b[4]) = FLOAT4(s_b[1][tk][tx * TN / 2 + BN / 2]);
+
+    #pragma unroll
+    for (int tm = 0; tm < TM; tm++) {
+      #pragma unroll
+      for (int tn = 0; tn < TN; tn++) {
+        // r_c[tm][tn] += r_comp_a[tm] * r_comp_b[tn];
+        r_c[tm][tn] = __fmaf_rn(r_comp_a[tm], r_comp_b[tn], r_c[tm][tn]);
+      }
+    }
+  }
+```
+
+## 参考文献 
+
+- [CUDA编程概念】一、什么是bank conflict？](https://zhuanlan.zhihu.com/p/659142274)
+- [解决 bank conflict](https://github.com/PaddleJitLab/CUDATutorial/blob/develop/docs/09_optimize_reduce/02_bank_conflict/README.md)
+- [Bank Conflict free 的几种方式](https://zhuanlan.zhihu.com/p/722286440)
+- [Using Shared Memory in CUDA C/C++](https://developer.nvidia.com/blog/using-shared-memory-cuda-cc/)
+- [CUDA（三）：通用矩阵乘法：从入门到熟练](https://zhuanlan.zhihu.com/p/657632577)
+  
 ## 测试
 
 ```bash
 # 只测试Ada架构 不指定默认编译所有架构 耗时较长: Volta, Ampere, Ada, Hopper, ...
 export TORCH_CUDA_ARCH_LIST=Ada 
 python3 sgemm.py
 ```
-
 输出:
 
 ```bash
diff --git a/sgemm/sgemm.cu b/sgemm/sgemm.cu
@@ -373,6 +373,14 @@ __global__ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_kernel(
   int load_a_gmem_m = by * BM + load_a_smem_m;
   int load_b_gmem_n = bx * BN + load_b_smem_n;
 
+  // 1）主循环从bk = 1 开始，第一次数据加载在主循环之前，最后一次计算在主循环之后，这是pipeline 的特点决定的；
+  // 2）由于计算和下一次访存使用的Shared Memory不同，因此主循环中每次循环只需要一次__syncthreads()即可
+  // 3）由于GPU不能向CPU那样支持乱序执行，主循环中需要先将下一次循环计算需要的Gloabal Memory中的数据load 
+  // 到寄存器，然后进行本次计算，之后再将load到寄存器中的数据写到Shared Memory，这样在LDG指令向Global 
+  // Memory做load时，不会影响后续FFMA及其它运算指令的 launch 执行，也就达到了Double Buffering的目的。
+  
+  // bk = 0 is loading here, buffer 0
+
   {
     int load_a_gmem_k = load_a_smem_k;
     int load_a_gmem_addr = load_a_gmem_m * K + load_a_gmem_k;
@@ -390,6 +398,9 @@ __global__ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_kernel(
   // Without this synchronization, accuracy may occasionally be abnormal.
   __syncthreads(); 
 
+  // bk start from 1，需要注意的是，虽然 bk 从 1 开始，但实际上 bk=1时，使用的是
+  // 第0块BK中的数据（已经加载到共享内存s_a[0]和s_b[0]）；bk=2时，实际计算的是第1块
+  // BK中的数据。其余以此类推，这个循环结束后，剩下最后一块BK大小的数据需要计算。
   for (int bk = 1; bk < (K + BK - 1) / BK; bk++) {
 
     int smem_sel = (bk - 1) & 1;
@@ -418,7 +429,12 @@ __global__ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_kernel(
         }
       }
     }
-
+    
+    // 对比非double buffers版本，此处不需要__syncthreads()，总共节省了
+    // ((K + BK - 1) / BK) - 1 次block内的同步操作。比如，bk=1时，HFMA计算
+    // 使用的是s_a[0]和s_b[0]，因此，和s_a[1]和s_b[1]的加载是没有依赖关系的。
+    // 从global内存到s_a[1]和s_b[1]和HFMA计算可以并行。s_a[1]和s_b[1]用于
+    // 加载下一块BK需要的数据到共享内存。
     s_a[smem_sel_next][load_a_smem_k + 0][load_a_smem_m] = r_load_a[0];
     s_a[smem_sel_next][load_a_smem_k + 1][load_a_smem_m] = r_load_a[1];
     s_a[smem_sel_next][load_a_smem_k + 2][load_a_smem_m] = r_load_a[2];
@@ -427,7 +443,8 @@ __global__ void sgemm_t_8x8_sliced_k_f32x4_bcf_dbuf_kernel(
 
     __syncthreads();
   }
-
+  
+  // 计算剩下最后一块BK
   #pragma unroll
   for (int tk = 0; tk < BK; tk++) {
     FLOAT4(r_comp_a[0]) = FLOAT4(s_a[1][tk][ty * TM / 2     ]);