Update Something?

jamesnulliu · jamesnulliu · commit e77f8f85f09b · 2025-03-31T16:21:07.000Z
diff --git a/configs/lib-tests.yml b/configs/lib-tests.yml
@@ -1,10 +1,7 @@
 OpTest:
   VecAdd:
-    - nElems: 32
     - nElems: 1024
-    - nElems: 2048
-    - nElems: 1048576  # 1024*1024
-    - nElems: 8388608  # 1024*1024
+    - nElems: 8388608  # 8*1024*1024
   Conv2D:
     - inputHeight: 32
       inputWidth: 32
diff --git a/csrc/cmake/compilers/cuda-compiler-configs.cmake b/csrc/cmake/compilers/cuda-compiler-configs.cmake
@@ -23,6 +23,5 @@ set(CMAKE_CUDA_ARCHITECTURES native)
 log_info("CMAKE_CUDA_STANDARD: ${CMAKE_CUDA_STANDARD}")
 
 string(APPEND CMAKE_CUDA_FLAGS " --expt-relaxed-constexpr")
-string(APPEND CMAKE_CUDA_FLAGS_RELEASE " -O3")
-string(APPEND CMAKE_CUDA_FLAGS_RELWITHDEBINFO " -O3 -lineinfo")
+string(APPEND CMAKE_CUDA_FLAGS_RELWITHDEBINFO " -lineinfo")
 string(APPEND CMAKE_CUDA_FLAGS_DEBUG " -lineinfo")
diff --git a/csrc/cmake/compilers/cxx-compiler-configs.cmake b/csrc/cmake/compilers/cxx-compiler-configs.cmake
@@ -27,40 +27,26 @@ log_info("CMAKE_CXX_STANDARD: ${CMAKE_CXX_STANDARD}")
 log_info("CMAKE_CXX_SCAN_FOR_MODULES: ${CMAKE_CXX_SCAN_FOR_MODULES}")
 log_info("STACK_SIZE: ${STACK_SIZE}")
 
-# Compiler flags for MSVC
+# MSVC ----------------------------------------------------------------------------------------------------------------
 if (CMAKE_CXX_COMPILER_ID STREQUAL "MSVC")
     string(APPEND CMAKE_CXX_FLAGS " /permissive- /Zc:forScope /openmp /Zc:__cplusplus")
-    string(APPEND CMAKE_CXX_FLAGS_RELEASE " /O2")
-    string(APPEND CMAKE_CXX_FLAGS_RELWITHDEBINFO " /O2 /Zi")
-    string(APPEND CMAKE_CXX_FLAGS_DEBUG " /Zi")
-    # Set stack size
     string(APPEND CMAKE_EXE_LINKER_FLAGS " /STACK:${STACK_SIZE}")
-# Compiler flags for Clang
+# Clang ---------------------------------------------------------------------------------------------------------------
 elseif(CMAKE_CXX_COMPILER_ID STREQUAL "Clang")
     string(APPEND CMAKE_CXX_FLAGS " -fopenmp -Wall -Wextra -Werror")
-    string(APPEND CMAKE_CXX_FLAGS_RELEASE " -O3")
-    string(APPEND CMAKE_CXX_FLAGS_RELWITHDEBINFO " -O3 -g")
-    string(APPEND CMAKE_CXX_FLAGS_DEBUG " -g")
-    # Set stack size
     if (WIN32)
         string(APPEND CMAKE_EXE_LINKER_FLAGS " -Wl,-stack,${STACK_SIZE}")
     else()
         string(APPEND CMAKE_EXE_LINKER_FLAGS " -Wl,-zstack-size=${STACK_SIZE}")
     endif()
-# Compiler flags for GNU
+# GNU -----------------------------------------------------------------------------------------------------------------
 elseif(CMAKE_CXX_COMPILER_ID STREQUAL "GNU")
     string(APPEND CMAKE_CXX_FLAGS " -fopenmp -Wall -Wextra -Werror")
-    string(APPEND CMAKE_CXX_FLAGS_RELEASE " -O3")
-    string(APPEND CMAKE_CXX_FLAGS_RELWITHDEBINFO " -O3 -g")
-    string(APPEND CMAKE_CXX_FLAGS_DEBUG " -g")
-    # Set stack size
     if (WIN32)
         string(APPEND CMAKE_EXE_LINKER_FLAGS " -Wl,--stack,${STACK_SIZE}")
     else()
         string(APPEND CMAKE_EXE_LINKER_FLAGS " -Wl,-zstack-size=${STACK_SIZE}")
     endif()
-# [TODO] @jamesnulliu
-#   Support more compilers
 else()
     log_fatal("Unsupported compiler")
 endif()
diff --git a/csrc/include/pmpp/pch.hpp b/csrc/include/pmpp/pch.hpp
@@ -5,6 +5,7 @@
 #include <torch/python.h>
 #include <torch/torch.h>
 #include <type_traits>
+#include <format>
 
 #include "pmpp/system.hpp"
 #include "pmpp/types/cu_types.cuh"
diff --git a/csrc/include/pmpp/utils/common.cuh b/csrc/include/pmpp/utils/common.cuh
@@ -16,13 +16,22 @@
         do {                                                                  \
             cudaError_t err_ = (err);                                         \
             if (err_ != cudaSuccess) {                                        \
-                ::fprintf(stderr, "CUDA error at %s:%d code=%d(%s) \"%s\"",   \
+                ::fprintf(stderr,                                             \
+                          "CUDA error at %s:%d; Error code: %d(%s) \"%s\"",   \
                           __FILE__, __LINE__, err,                            \
                           ::cudaGetErrorString(err_), #err);                  \
                 ::cudaDeviceReset();                                          \
-                throw ::std::runtime_error("CUDA error");                     \
+                ::std::abort();                                               \
             }                                                                 \
         } while (0)
+
+    #define PMPP_ABORT(msg)                                                   \
+        do {                                                                  \
+            ::fprintf(stderr, "Abort at %s:%d \"%s\"", __FILE__, __LINE__,    \
+                      msg);                                                   \
+            ::cudaDeviceReset();                                              \
+            ::std::abort();                                                   \
+        } while (0)
 #endif
 
 #ifdef PMPP_DEBUG_CUDA_ERR_CHECK
diff --git a/csrc/lib/ops/torch_bind.cu b/csrc/lib/ops/torch_bind.cu
@@ -7,7 +7,9 @@
 //   https://docs.google.com/document/d/1_W62p8WJOQQUzPsJYa7s701JXt0qf2OfLub2sbkHOaU/edit?tab=t.0#heading=h.fu2gkc7w0nrc
 TORCH_LIBRARY(pmpp, m)
 {
-    m.def("vector_add(Tensor a, Tensor b) -> Tensor");
+    m.def("vector_add_v0(Tensor a, Tensor b) -> Tensor");
+    m.def("vector_add_v1(Tensor a, Tensor b) -> Tensor");
+    m.def("vector_add_v2(Tensor a, Tensor b) -> Tensor");
     m.def("cvt_rgb_to_gray(Tensor img) -> Tensor");
     m.def("matmul(Tensor A, Tensor B) -> Tensor");
     m.def("conv2d(Tensor input, Tensor kernel) -> Tensor");
@@ -21,7 +23,9 @@ TORCH_LIBRARY(pmpp, m)
 //   https://docs.google.com/document/d/1_W62p8WJOQQUzPsJYa7s701JXt0qf2OfLub2sbkHOaU/edit?tab=t.0#heading=h.jc288bcufw9a
 TORCH_LIBRARY_IMPL(pmpp, CPU, m)
 {
-    m.impl("vector_add", &pmpp::ops::cpu::torch_impl::vectorAdd);
+    m.impl("vector_add_v0", &pmpp::ops::cpu::torch_impl::vectorAdd);
+    m.impl("vector_add_v1", &pmpp::ops::cpu::torch_impl::vectorAdd);
+    m.impl("vector_add_v2", &pmpp::ops::cpu::torch_impl::vectorAdd);
     m.impl("cvt_rgb_to_gray", &pmpp::ops::cpu::torch_impl::cvtRGBtoGray);
     m.impl("matmul", &pmpp::ops::cpu::torch_impl::matmul);
     m.impl("conv2d", &pmpp::ops::cpu::torch_impl::conv2d);
@@ -33,7 +37,9 @@ TORCH_LIBRARY_IMPL(pmpp, CPU, m)
 
 TORCH_LIBRARY_IMPL(pmpp, CUDA, m)
 {
-    m.impl("vector_add", &pmpp::ops::cuda::torch_impl::vectorAdd);
+    m.impl("vector_add_v0", &pmpp::ops::cuda::torch_impl::vectorAdd<0>);
+    m.impl("vector_add_v1", &pmpp::ops::cuda::torch_impl::vectorAdd<1>);
+    m.impl("vector_add_v2", &pmpp::ops::cuda::torch_impl::vectorAdd<2>);
     m.impl("cvt_rgb_to_gray", &pmpp::ops::cuda::torch_impl::cvtRGBtoGray);
     m.impl("matmul", &pmpp::ops::cuda::torch_impl::matmul);
     m.impl("conv2d", &pmpp::ops::cuda::torch_impl::conv2d);
diff --git a/csrc/lib/ops/vecAdd/op.cuh b/csrc/lib/ops/vecAdd/op.cuh
@@ -6,37 +6,70 @@
 
 namespace pmpp::ops::cuda
 {
-__global__ void vecAddKernel(const fp32_t* a, const fp32_t* b, fp32_t* c,
-                             int32_t n)
+__global__ void vecAddKernelv0(const fp32_t* a, const fp32_t* b, fp32_t* c,
+                               int32_t n)
 {
 
     int gtid = threadIdx.x + blockDim.x * blockIdx.x;
     if (gtid < n) {
-        // [GM] 2 load, 1 store, 3 inst
+        // [DRAM] 2 load, 1 store, 3 inst
         c[gtid] = a[gtid] + b[gtid];
     }
 }
 
+__global__ void vecAddKernelv1(const fp32_t* a, const fp32_t* b, fp32_t* c,
+                               int32_t n)
+{
+
+    int gtid = threadIdx.x + blockDim.x * blockIdx.x;
+    gtid = gtid % 2 == 0 ? gtid + 1 : gtid - 1;
+    if (gtid < n) {
+        // [DRAM] 2 load, 1 store, 3 inst
+        c[gtid] = a[gtid] + b[gtid];
+    }
+}
+
+__global__ void vecAddKernelv2(const fp32_t* a, const fp32_t* b, fp32_t* c,
+                               int32_t n)
+{
+
+    int gtid = threadIdx.x + blockDim.x * blockIdx.x + 1;
+    if (gtid < n) {
+        // [DRAM] 2 load, 1 store, 3 inst
+        c[gtid] = a[gtid] + b[gtid];
+    }
+}
+
+template <uint8_t VERSION = 0>
 void launchVecAdd(const fp32_t* d_A, const fp32_t* d_B, fp32_t* d_C, size_t n)
 {
     dim3 blockSize = {std::min<uint32_t>(n, 1024), 1, 1};
     dim3 gridSize = {ceilDiv<uint32_t>(n, blockSize.x), 1, 1};
 
-    vecAddKernel<<<gridSize, blockSize>>>(d_A, d_B, d_C, int32_t(n));
+    if constexpr (VERSION == 0) {
+        vecAddKernelv0<<<gridSize, blockSize>>>(d_A, d_B, d_C, n);
+    } else if (VERSION == 1) {
+        vecAddKernelv1<<<gridSize, blockSize>>>(d_A, d_B, d_C, n);
+    } else if (VERSION == 2) {
+        vecAddKernelv2<<<gridSize, blockSize>>>(d_A, d_B, d_C, n);
+    } else {
+        PMPP_ABORT(std::format("Unsupported version: {}", VERSION).c_str());
+    }
 
     PMPP_DEBUG_CUDA_ERR_CHECK(cudaGetLastError());
 }
 
 namespace torch_impl
 {
+template <uint8_t VERSION = 0>
 inline auto vectorAdd(const torch::Tensor& A, const torch::Tensor& B)
     -> torch::Tensor
 {
     torch::Tensor C = torch::empty_like(A);
 
     switch (A.scalar_type()) {
     case torch::kFloat32: {
-        pmpp::ops::cuda::launchVecAdd(
+        pmpp::ops::cuda::launchVecAdd<VERSION>(
             A.data_ptr<fp32_t>(), B.data_ptr<fp32_t>(), C.data_ptr<fp32_t>(),
             A.flatten().size(0));
         break;
diff --git a/csrc/test/OpTest/vecAdd.cpp b/csrc/test/OpTest/vecAdd.cpp
@@ -9,13 +9,13 @@ namespace f = torch::nn::functional;
 namespace pmpp::test::ops
 {
 
-TEST_F(OpTest, VecAdd)
+TEST_F(OpTest, VecAddv0)
 {
 
     const YAML::Node& configs = getConfigs()["OpTest"]["VecAdd"];
 
     static auto custom_op = torch::Dispatcher::singleton()
-                                .findSchemaOrThrow("pmpp::vector_add", "")
+                                .findSchemaOrThrow("pmpp::vector_add_v0", "")
                                 .typed<torch::Tensor(const torch::Tensor&,
                                                      const torch::Tensor&)>();
 
@@ -36,7 +36,76 @@ TEST_F(OpTest, VecAdd)
             f::cosine_similarity(matCh.flatten(), matCd2h.flatten(),
                                  f::CosineSimilarityFuncOptions().dim(0));
 
+        EXPECT_TRUE(matCh.allclose(matCd2h));
         EXPECT_GE(cosSim.item<fp32_t>(), 0.99);
     }
 }
+
+TEST_F(OpTest, VecAddv1)
+{
+
+    const YAML::Node& configs = getConfigs()["OpTest"]["VecAdd"];
+
+    static auto custom_op = torch::Dispatcher::singleton()
+                                .findSchemaOrThrow("pmpp::vector_add_v1", "")
+                                .typed<torch::Tensor(const torch::Tensor&,
+                                                     const torch::Tensor&)>();
+
+    for (const auto& cfg : configs) {
+
+        auto nElems = cfg["nElems"].as<pmpp::size_t>();
+
+        torch::Tensor matAh = torch::rand(nElems, torch::kF32);
+        torch::Tensor matBh = torch::rand(nElems, torch::kF32);
+        torch::Tensor matCh = custom_op.call(matAh, matBh);
+
+        ASSERT_TRUE(torch::cuda::is_available());
+        torch::Tensor matAd = matAh.to(torch::kCUDA);
+        torch::Tensor matBd = matBh.to(matAd.device());
+        torch::Tensor matCd2h = custom_op.call(matAd, matBd).to(torch::kCPU);
+
+        Tensor cosSim =
+            f::cosine_similarity(matCh.flatten(), matCd2h.flatten(),
+                                 f::CosineSimilarityFuncOptions().dim(0));
+
+        EXPECT_TRUE(matCh.allclose(matCd2h));
+        EXPECT_GE(cosSim.item<fp32_t>(), 0.99);
+    }
+}
+
+TEST_F(OpTest, VecAddv2)
+{
+
+    const YAML::Node& configs = getConfigs()["OpTest"]["VecAdd"];
+
+    static auto custom_op = torch::Dispatcher::singleton()
+                                .findSchemaOrThrow("pmpp::vector_add_v2", "")
+                                .typed<torch::Tensor(const torch::Tensor&,
+                                                     const torch::Tensor&)>();
+
+    for (const auto& cfg : configs) {
+
+        auto nElems = cfg["nElems"].as<pmpp::size_t>();
+
+        torch::Tensor matAh = torch::rand(nElems, torch::kF32);
+        torch::Tensor matBh = torch::rand(nElems, torch::kF32);
+        torch::Tensor matCh = custom_op.call(matAh, matBh);
+
+        ASSERT_TRUE(torch::cuda::is_available());
+        torch::Tensor matAd = matAh.to(torch::kCUDA);
+        torch::Tensor matBd = matBh.to(matAd.device());
+        torch::Tensor matCd2h = custom_op.call(matAd, matBd).to(torch::kCPU);
+
+        Tensor cosSim =
+            f::cosine_similarity(matCh.flatten(), matCd2h.flatten(),
+                                 f::CosineSimilarityFuncOptions().dim(0));
+
+        std::cout << std::format("nElems: {}, cosSim: {}\n", nElems,
+                                 cosSim.item<fp32_t>());
+
+        // // [NOTE] This won't pass because the kernel is deliberately wrong
+        // EXPECT_TRUE(matCh.allclose(matCd2h));
+        // EXPECT_GE(cosSim.item<fp32_t>(), 0.99);
+    }
+}
 }  // namespace pmpp::test::ops
diff --git a/scripts/nsight-profile.sh b/scripts/nsight-profile.sh
@@ -1,5 +1,5 @@
 TEST_FILE="./build/test/pmpp_test"
-GTEST_FILTER="OpTest.VecAdd"
+GTEST_FILTER="OpTest.VecAdd*"
 OUTPUT_FILE="outputs/nsight_profile.ncu-rep"
 
 while [[ $# -gt 0 ]]; do