[Elementwise][Half] support f16x8_pack kernel, boost 1.1x (#40)

DefTruth · web-flow · commit 068e6fe12665 · 2024-09-21T15:47:30.000+08:00
* Update elementwise.cu

* Update elementwise.py

* Update README.md

* Update README.md
diff --git a/README.md b/README.md
@@ -26,6 +26,7 @@
 | ✔️ [elementwise_f16](./elementwise/elementwise.cu)|f16|/|[link](./elementwise/)|⭐️|
 | ✔️ [elementwise_f16x2](./elementwise/elementwise.cu)|f16|/|[link](./elementwise/)|⭐️|
 | ✔️ [elementwise_f16x8](./elementwise/elementwise.cu)|f16|/|[link](./elementwise/)|⭐️|
+| ✔️ [elementwise_f16x8_pack](./elementwise/elementwise.cu)|f16|/|[link](./elementwise/)|⭐️⭐️|
 | ✔️ [histogram_i32](./histogram/histogram.cu)|i32|/|[link](./histogram/)|⭐️|
 | ✔️ [histogram_i32x4](./histogram/histogram.cu)|i32|/|[link](./histogram/)|⭐️|  
 | ✔️ [sigmoid_f32](./sigmoid/sigmoid.cu)|f32|/|[link](./sigmoid/)|⭐️|  
diff --git a/elementwise/README.md b/elementwise/README.md
@@ -9,6 +9,7 @@
 - [X] elementwise_add_f16_kernel(fp16版本)
 - [X] elementwise_add_f16x2_kernel(fp16向量化版本)
 - [X] elementwise_add_f16x8_kernel(fp16向量化版本)
+- [X] elementwise_add_f16x8_pack_kernel(fp16向量化版本, pack)
 - [X] PyTorch bindings
 
 
@@ -24,22 +25,14 @@ python3 elementwise.py
 
 ```bash
 --------------------------------------------------------------------------------
-       out_f32: [-1.8014312982559204, 0.38691335916519165], time:0.01107502ms
-     out_f32x4: [-1.8014312982559204, 0.38691335916519165], time:0.01091743ms
-    out_f32_th: [-1.8014312982559204, 0.38691335916519165], time:0.00744152ms
+           out_f32: [-1.53079593, 0.52963573], time:0.28430200ms
+         out_f32x4: [-1.53079593, 0.52963573], time:0.29020834ms
+        out_f32_th: [-1.53079593, 0.52963573], time:0.29701710ms
 --------------------------------------------------------------------------------
-       out_f16: [-1.80078125, 0.38671875], time:0.01076937ms
-     out_f16x2: [-1.80078125, 0.38671875], time:0.01071215ms
-     out_f16x8: [-1.80078125, 0.38671875], time:0.01074862ms
-    out_f16_th: [-1.80078125, 0.38671875], time:0.00737953ms
---------------------------------------------------------------------------------
-   out_f32(v2): [-1.8014312982559204, 0.38691335916519165], time:0.00359011ms
- out_f32x4(v2): [-1.8014312982559204, 0.38691335916519165], time:0.00357652ms
-    out_f32_th: [-1.8014312982559204, 0.38691335916519165], time:0.00575542ms
---------------------------------------------------------------------------------
-   out_f16(v2): [-1.80078125, 0.38671875], time:0.00358772ms
- out_f16x2(v2): [-1.80078125, 0.38671875], time:0.00354576ms
- out_f16x8(v2): [-1.80078125, 0.38671875], time:0.00353265ms
-    out_f16_th: [-1.80078125, 0.38671875], time:0.00590253ms
+           out_f16: [-1.53027344, 0.52929688], time:0.05925465ms
+         out_f16x2: [-1.53027344, 0.52929688], time:0.04892802ms
+         out_f16x8: [-1.53027344, 0.52929688], time:0.04291439ms
+     out_f16x8pack: [-1.53027344, 0.52929688], time:0.03846574ms
+        out_f16_th: [-1.53027344, 0.52929688], time:0.04044223ms
 --------------------------------------------------------------------------------
 ```
diff --git a/elementwise/elementwise.cu b/elementwise/elementwise.cu
@@ -15,6 +15,7 @@
 #define FLOAT4(value) (reinterpret_cast<float4*>(&(value))[0])
 #define HALF2(value) (reinterpret_cast<half2*>(&(value))[0])
 #define BFLOAT2(value) (reinterpret_cast<__nv_bfloat162*>(&(value))[0])
+#define LDST128BITS(value) (reinterpret_cast<float4*>(&(value))[0])
 
 // -------------------------------------- FP32 -------------------------------------- 
 // ElementWise Add  
@@ -95,6 +96,23 @@ __global__ void elementwise_add_f16x8_kernel(half* a, half* b, half* c, int N) {
   if ((idx + 6) < N) { HALF2(c[idx + 6]) = reg_c_3; }
 }
 
+__global__ void elementwise_add_f16x8_pack_kernel(half* a, half* b, half* c, int N) {
+  int idx = 8 * (blockIdx.x * blockDim.x + threadIdx.x);
+  // temporary register(memory), .local space in ptx, addressable
+  half pack_a[8], pack_b[8], pack_c[8]; // 8x16 bits=128 bits.
+  // reinterpret as float4 and load 128 bits in 1 memory issue.
+  LDST128BITS(pack_a[0]) = LDST128BITS(a[idx]); // load 128 bits
+  LDST128BITS(pack_b[0]) = LDST128BITS(b[idx]); // load 128 bits
+
+  #pragma unroll
+  for (int i = 0; i < 8; i += 2) {
+    // __hadd2 for half2 x 4
+    HALF2(pack_c[i]) = __hadd2(HALF2(pack_a[i]), HALF2(pack_b[i]));
+  }
+  // reinterpret as float4 and store 128 bits in 1 memory issue.
+  if ((idx + 7) < N) { LDST128BITS(c[idx]) = LDST128BITS(pack_c[0]); }
+}
+
 
 // --------------------- PyTorch bindings for custom kernel -----------------------
 #define STRINGFY(str) #str
@@ -107,70 +125,59 @@ if(((T).options().dtype() != (th_type))) {                   \
   throw std::runtime_error("values must be "#th_type);       \
 }
 
-#define CHECK_TORCH_TENSOR_SHAPE(T, S0) \
-if (((T).size(0) != (S0))) { throw std::runtime_error("Tensor size mismatch!"); }
-
 #define TORCH_BINDING_ELEM_ADD(packed_type, th_type, element_type, n_elements)   \
-torch::Tensor elementwise_add_##packed_type(torch::Tensor a, torch::Tensor b) {  \
-  CHECK_TORCH_TENSOR_DTYPE(a, (th_type))                                         \
-  CHECK_TORCH_TENSOR_DTYPE(b, (th_type))                                         \
-  auto options = torch::TensorOptions().dtype((th_type)).device(                 \
-    torch::kCUDA, 0);                                                            \
-  const int N = a.size(0);                                                       \
-  CHECK_TORCH_TENSOR_SHAPE(b, N)                                                 \
-  auto c = torch::zeros({N}, options);                                           \
-  static const int NUM_THREADS_PER_BLOCK = 256 / (n_elements);                   \
-  const int NUM_BLOCKS = (N + 256 - 1) / 256;                                    \
-  dim3 block(NUM_THREADS_PER_BLOCK);                                             \
-  dim3 grid(NUM_BLOCKS);                                                         \
-  elementwise_add_##packed_type##_kernel<<<grid, block>>>(                       \
-      reinterpret_cast<element_type*>(a.data_ptr()),                             \
-      reinterpret_cast<element_type*>(b.data_ptr()),                             \
-      reinterpret_cast<element_type*>(c.data_ptr()), N);                         \
-  return c;                                                                      \
-}
-
-#define TORCH_BINDING_ELEM_ADD_V2(packed_type, th_type, element_type, n_elements)\
-void elementwise_add_##packed_type##_v2(                                         \
+void elementwise_add_##packed_type(                                              \
   torch::Tensor a, torch::Tensor b, torch::Tensor c) {                           \
   CHECK_TORCH_TENSOR_DTYPE(a, (th_type))                                         \
   CHECK_TORCH_TENSOR_DTYPE(b, (th_type))                                         \
   CHECK_TORCH_TENSOR_DTYPE(c, (th_type))                                         \
-  const int N = a.size(0);                                                       \
-  CHECK_TORCH_TENSOR_SHAPE(b, N)                                                 \
-  CHECK_TORCH_TENSOR_SHAPE(c, N)                                                 \
-  static const int NUM_THREADS_PER_BLOCK = 256 / (n_elements);                   \
-  const int NUM_BLOCKS = (N + 256 - 1) / 256;                                    \
-  dim3 block(NUM_THREADS_PER_BLOCK);                                             \
-  dim3 grid(NUM_BLOCKS);                                                         \
-  elementwise_add_##packed_type##_kernel<<<grid, block>>>(                       \
+  const int ndim = a.dim();                                                      \
+  if (ndim != 2) {                                                               \
+    int N = 1;                                                                   \
+    for (int i = 0; i < ndim; ++i) { N *= a.size(i); }                           \
+    dim3 block(256 / (n_elements));                                              \
+    dim3 grid((N + 256 - 1) / 256);                                              \
+    elementwise_add_##packed_type##_kernel<<<grid, block>>>(                     \
       reinterpret_cast<element_type*>(a.data_ptr()),                             \
       reinterpret_cast<element_type*>(b.data_ptr()),                             \
       reinterpret_cast<element_type*>(c.data_ptr()), N);                         \
+  } else {                                                                       \
+    const int S = a.size(0);                                                     \
+    const int K = a.size(1);                                                     \
+    const int N = S * K;                                                         \
+    if ((K/(n_elements)) <= 1024) {                                              \
+      dim3 block(K/(n_elements));                                                \
+      dim3 grid(S);                                                              \
+      elementwise_add_##packed_type##_kernel<<<grid, block>>>(                   \
+        reinterpret_cast<element_type*>(a.data_ptr()),                           \
+        reinterpret_cast<element_type*>(b.data_ptr()),                           \
+        reinterpret_cast<element_type*>(c.data_ptr()), N);                       \
+    } else {                                                                     \
+      int N = 1;                                                                 \
+      for (int i = 0; i < ndim; ++i) { N *= a.size(i); }                         \
+      dim3 block(256 / (n_elements));                                            \
+      dim3 grid((N + 256 - 1) / 256);                                            \
+      elementwise_add_##packed_type##_kernel<<<grid, block>>>(                   \
+        reinterpret_cast<element_type*>(a.data_ptr()),                           \
+        reinterpret_cast<element_type*>(b.data_ptr()),                           \
+        reinterpret_cast<element_type*>(c.data_ptr()), N);                       \
+    }                                                                            \
+  }                                                                              \
 }
 
 
-TORCH_BINDING_ELEM_ADD(f32,    torch::kFloat32,    float,    1)
-TORCH_BINDING_ELEM_ADD(f32x4,  torch::kFloat32,    float,    4)
-TORCH_BINDING_ELEM_ADD(f16,    torch::kHalf,       half,     1)
-TORCH_BINDING_ELEM_ADD(f16x2,  torch::kHalf,       half,     2)
-TORCH_BINDING_ELEM_ADD(f16x8,  torch::kHalf,       half,     8)
-// v2: no copy of c Tensor
-TORCH_BINDING_ELEM_ADD_V2(f32,    torch::kFloat32,    float,    1)
-TORCH_BINDING_ELEM_ADD_V2(f32x4,  torch::kFloat32,    float,    4)
-TORCH_BINDING_ELEM_ADD_V2(f16,    torch::kHalf,       half,     1)
-TORCH_BINDING_ELEM_ADD_V2(f16x2,  torch::kHalf,       half,     2)
-TORCH_BINDING_ELEM_ADD_V2(f16x8,  torch::kHalf,       half,     8)
+TORCH_BINDING_ELEM_ADD(f32,         torch::kFloat32,    float,    1)
+TORCH_BINDING_ELEM_ADD(f32x4,       torch::kFloat32,    float,    4)
+TORCH_BINDING_ELEM_ADD(f16,         torch::kHalf,       half,     1)
+TORCH_BINDING_ELEM_ADD(f16x2,       torch::kHalf,       half,     2)
+TORCH_BINDING_ELEM_ADD(f16x8,       torch::kHalf,       half,     8)
+TORCH_BINDING_ELEM_ADD(f16x8_pack,  torch::kHalf,       half,     8)
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f32)
   TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f32x4)
   TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16)
   TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16x2)
   TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16x8)
-  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f32_v2)
-  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f32x4_v2)
-  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16_v2)
-  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16x2_v2)
-  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16x8_v2)
+  TORCH_BINDING_COMMON_EXTENSION(elementwise_add_f16x8_pack)
 }
diff --git a/elementwise/elementwise.py b/elementwise/elementwise.py
@@ -49,41 +49,29 @@ def run_benchmark(perf_func: callable, a: torch.Tensor, b: torch.Tensor, tag: st
     total_time = (end - start) * 1000 # ms
     mean_time = total_time / iters
     out_info = f"out_{tag}"
-    out_val = out.detach().cpu().numpy().tolist()[:2]
-    print(f"{out_info:>14}: {out_val}, time:{mean_time:.8f}ms")
+    out_val = out.flatten().detach().cpu().numpy().tolist()[:2]
+    out_val = [round(v, 8) for v in out_val]
+    print(f"{out_info:>18}: {out_val}, time:{mean_time:.8f}ms")
     if show_all: print(out)
     return out, mean_time
 
 
 print("-" * 80)
-N_ELEMENTS = 256*92*4
-a = torch.randn((N_ELEMENTS)).cuda().float()
-b = torch.randn((N_ELEMENTS)).cuda().float()
-run_benchmark(lib.elementwise_add_f32,   a, b, "f32")
-run_benchmark(lib.elementwise_add_f32x4, a, b, "f32x4")
-run_benchmark(torch.add, a, b, "f32_th")
+S, K = 4096, 4096
+a = torch.randn((S, K)).cuda().float().contiguous()
+b = torch.randn((S, K)).cuda().float().contiguous()
+c = torch.zeros_like(a).cuda().float().contiguous()
+run_benchmark(lib.elementwise_add_f32,   a, b, "f32",   c)
+run_benchmark(lib.elementwise_add_f32x4, a, b, "f32x4", c)
+run_benchmark(partial(torch.add, out=c), a, b, "f32_th")
 
 print("-" * 80)
-a_f16 = a.half()
-b_f16 = b.half()
-run_benchmark(lib.elementwise_add_f16,   a_f16, b_f16, "f16")
-run_benchmark(lib.elementwise_add_f16x2, a_f16, b_f16, "f16x2")
-run_benchmark(lib.elementwise_add_f16x8, a_f16, b_f16, "f16x8")
-run_benchmark(torch.add, a_f16, b_f16, "f16_th")
-
-print("-" * 80)
-# v2: no copy of c Tensor
-c = torch.zeros_like(a).cuda().float()
-run_benchmark(lib.elementwise_add_f32_v2,   a, b, "f32(v2)",   c)
-run_benchmark(lib.elementwise_add_f32x4_v2, a, b, "f32x4(v2)", c)
-run_benchmark(partial(torch.add, out=c),    a, b, "f32_th")
-
-print("-" * 80)
-# v2: no copy of c Tensor
-c_f16 = torch.zeros_like(a_f16).cuda().half()
-run_benchmark(lib.elementwise_add_f16_v2,    a_f16, b_f16, "f16(v2)",   c_f16)
-run_benchmark(lib.elementwise_add_f16x2_v2,  a_f16, b_f16, "f16x2(v2)", c_f16)
-run_benchmark(lib.elementwise_add_f16x8_v2,  a_f16, b_f16, "f16x8(v2)", c_f16)
-run_benchmark(partial(torch.add, out=c_f16), a_f16, b_f16, "f16_th")
-
+a_f16 = a.half().contiguous()
+b_f16 = b.half().contiguous()
+c_f16 = c.half().contiguous()
+run_benchmark(lib.elementwise_add_f16,        a_f16, b_f16, "f16",       c_f16)
+run_benchmark(lib.elementwise_add_f16x2,      a_f16, b_f16, "f16x2",     c_f16)
+run_benchmark(lib.elementwise_add_f16x8,      a_f16, b_f16, "f16x8",     c_f16)
+run_benchmark(lib.elementwise_add_f16x8_pack, a_f16, b_f16, "f16x8pack", c_f16)
+run_benchmark(partial(torch.add, out=c_f16),  a_f16, b_f16, "f16_th")
 print("-" * 80)