Conv1d pure CUDA implementation (#1949)

jordimas · web-flow · commit 166b731eccb8 · 2025-12-30T12:43:12.000+01:00
As discussed in #1934 - Provides a Cuda pure Conv1d implementation - Makes CUDNN OFF implementation by default in our builds, then CuDNN is no longer a dependency
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -547,8 +547,9 @@ if (WITH_CUDA)
     list(APPEND PRIVATE_INCLUDE_DIRECTORIES ${CUDNN_INCLUDE_DIR})
     list(APPEND LIBRARIES ${CUDNN_LIBRARIES})
     add_definitions(-DCT2_WITH_CUDNN)
+    list(APPEND SOURCES src/ops/conv1d_cudnn_gpu.cu)
   else()
-    message(WARNING "cuDNN library is not enabled: convolution layers will not be supported on GPU")
+    list(APPEND SOURCES src/ops/conv1d_gpu.cu)
   endif()
 
   if(CUDA_DYNAMIC_LOADING)
@@ -638,7 +639,6 @@ if (WITH_CUDA)
     src/ops/alibi_add_gpu.cu
     src/ops/bias_add_gpu.cu
     src/ops/concat_split_slide_gpu.cu
-    src/ops/conv1d_gpu.cu
     src/ops/dequantize_gpu.cu
     src/ops/flash_attention_gpu.cu
     src/ops/gather_gpu.cu
diff --git a/python/tools/prepare_build_environment_linux.sh b/python/tools/prepare_build_environment_linux.sh
@@ -65,7 +65,7 @@ mkdir build-release && cd build-release
 if [ "$CIBW_ARCHS" == "aarch64" ]; then
     cmake -DCMAKE_BUILD_TYPE=Release -DBUILD_CLI=OFF -DWITH_MKL=OFF -DOPENMP_RUNTIME=COMP -DCMAKE_PREFIX_PATH="/opt/OpenBLAS" -DWITH_OPENBLAS=ON -DWITH_RUY=ON ..
 else
-    cmake -DCMAKE_BUILD_TYPE=Release -DCMAKE_CXX_FLAGS="-msse4.1" -DBUILD_CLI=OFF -DWITH_DNNL=ON -DOPENMP_RUNTIME=COMP -DWITH_CUDA=ON -DWITH_CUDNN=ON -DCUDA_DYNAMIC_LOADING=ON -DCUDA_NVCC_FLAGS="-Xfatbin=-compress-all" -DCUDA_ARCH_LIST="Common"  -DWITH_TENSOR_PARALLEL=ON ..
+    cmake -DCMAKE_BUILD_TYPE=Release -DCMAKE_CXX_FLAGS="-msse4.1" -DBUILD_CLI=OFF -DWITH_DNNL=ON -DOPENMP_RUNTIME=COMP -DWITH_CUDA=ON -DWITH_CUDNN=OFF -DCUDA_DYNAMIC_LOADING=ON -DCUDA_NVCC_FLAGS="-Xfatbin=-compress-all" -DCUDA_ARCH_LIST="Common"  -DWITH_TENSOR_PARALLEL=ON ..
 fi
 
 VERBOSE=1 make -j$(nproc) install
diff --git a/python/tools/prepare_build_environment_windows.sh b/python/tools/prepare_build_environment_windows.sh
@@ -47,7 +47,7 @@ rm -r oneDNN-*
 
 mkdir build
 cd build
-cmake -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=$CTRANSLATE2_ROOT -DCMAKE_PREFIX_PATH="C:/Program Files (x86)/Intel/oneAPI/compiler/latest/windows/compiler/lib/intel64_win;C:/Program Files (x86)/oneDNN" -DBUILD_CLI=OFF -DWITH_DNNL=ON -DWITH_CUDA=ON -DWITH_CUDNN=ON -DCUDA_TOOLKIT_ROOT_DIR="$CUDA_ROOT" -DCUDA_DYNAMIC_LOADING=ON -DCUDA_NVCC_FLAGS="-Xfatbin=-compress-all" -DCUDA_ARCH_LIST="Common" ..
+cmake -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=$CTRANSLATE2_ROOT -DCMAKE_PREFIX_PATH="C:/Program Files (x86)/Intel/oneAPI/compiler/latest/windows/compiler/lib/intel64_win;C:/Program Files (x86)/oneDNN" -DBUILD_CLI=OFF -DWITH_DNNL=ON -DWITH_CUDA=ON -DWITH_CUDNN=OFF -DCUDA_TOOLKIT_ROOT_DIR="$CUDA_ROOT" -DCUDA_DYNAMIC_LOADING=ON -DCUDA_NVCC_FLAGS="-Xfatbin=-compress-all" -DCUDA_ARCH_LIST="Common" ..
 cmake --build . --config Release --target install --parallel 6 --verbose
 cd ..
 rm -r build
diff --git a/src/ops/conv1d_cudnn_gpu.cu b/src/ops/conv1d_cudnn_gpu.cu
@@ -0,0 +1,152 @@
+#include "ctranslate2/ops/conv1d.h"
+
+#include "cuda/utils.h"
+
+namespace ctranslate2 {
+  namespace ops {
+
+    template <Device D, typename T>
+    void Conv1D::compute(const StorageView& input,
+                         const StorageView& weight,
+                         const StorageView* bias,
+                         StorageView& output,
+                         const StorageView* qscale) const {
+      if (qscale)
+        throw std::runtime_error("Quantization is not supported in this Conv1D implementation");
+
+      const int batch_size = input.dim(0);
+      const int in_channels = input.dim(1);
+      const int input_length = input.dim(2);
+      const int output_length = output.dim(2);
+      const int out_channels = weight.dim(0);
+      const int in_channels_per_group = weight.dim(1);
+      const int kernel_size = weight.dim(2);
+
+      cudnnDataType_t data_type = cuda::get_cudnn_data_type(input.dtype());
+
+      cudnnTensorDescriptor_t input_desc;
+      CUDNN_CHECK(cudnnCreateTensorDescriptor(&input_desc));
+      CUDNN_CHECK(cudnnSetTensor4dDescriptor(input_desc, CUDNN_TENSOR_NCHW, data_type,
+                                             batch_size, in_channels, 1, input_length));
+
+      cudnnTensorDescriptor_t output_desc;
+      CUDNN_CHECK(cudnnCreateTensorDescriptor(&output_desc));
+      CUDNN_CHECK(cudnnSetTensor4dDescriptor(output_desc, CUDNN_TENSOR_NCHW, data_type,
+                                             batch_size, out_channels, 1, output_length));
+
+      cudnnFilterDescriptor_t weight_desc;
+      CUDNN_CHECK(cudnnCreateFilterDescriptor(&weight_desc));
+      CUDNN_CHECK(cudnnSetFilter4dDescriptor(weight_desc, data_type, CUDNN_TENSOR_NCHW,
+                                             out_channels, in_channels_per_group, 1, kernel_size));
+
+      cudnnConvolutionDescriptor_t conv_desc;
+      CUDNN_CHECK(cudnnCreateConvolutionDescriptor(&conv_desc));
+      CUDNN_CHECK(cudnnSetConvolution2dDescriptor(conv_desc,
+                                                  /*pad_h=*/0, /*pad_w=*/_padding,
+                                                  /*stride_h=*/1, /*stride_w=*/_stride,
+                                                  /*dilation_h=*/1, /*dilation_w=*/_dilation,
+                                                  CUDNN_CROSS_CORRELATION,
+                                                  CUDNN_DATA_FLOAT));
+
+      CUDNN_CHECK(cudnnSetConvolutionMathType(conv_desc, CUDNN_DEFAULT_MATH));
+      if (_groups > 1)
+        CUDNN_CHECK(cudnnSetConvolutionGroupCount(conv_desc, _groups));
+      if (data_type == CUDNN_DATA_HALF)
+        CUDNN_CHECK(cudnnSetConvolutionMathType(conv_desc, CUDNN_TENSOR_OP_MATH));
+
+      cudnnHandle_t handle = cuda::get_cudnn_handle();
+
+      cudnnConvolutionFwdAlgo_t algo = (bias
+                                        ? CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM
+                                        : CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM);
+
+      size_t workspace_size = 0;
+      void* workspace = nullptr;
+      CUDNN_CHECK(cudnnGetConvolutionForwardWorkspaceSize(handle,
+                                                          input_desc,
+                                                          weight_desc,
+                                                          conv_desc,
+                                                          output_desc,
+                                                          algo,
+                                                          &workspace_size));
+
+      if (workspace_size > 0)
+        workspace = get_allocator<Device::CUDA>().allocate(workspace_size);
+
+      float alpha = 1;
+      float beta = 0;
+
+      if (bias) {
+        cudnnTensorDescriptor_t bias_desc;
+        CUDNN_CHECK(cudnnCreateTensorDescriptor(&bias_desc));
+        CUDNN_CHECK(cudnnSetTensor4dDescriptor(bias_desc, CUDNN_TENSOR_NCHW, data_type,
+                                               1, out_channels, 1, 1));
+
+        cudnnActivationDescriptor_t activation_desc;
+        CUDNN_CHECK(cudnnCreateActivationDescriptor(&activation_desc));
+        CUDNN_CHECK(cudnnSetActivationDescriptor(activation_desc,
+                                                 CUDNN_ACTIVATION_IDENTITY,
+                                                 CUDNN_NOT_PROPAGATE_NAN,
+                                                 /*coef=*/0));
+
+        CUDNN_CHECK(cudnnConvolutionBiasActivationForward(handle,
+                                                          &alpha,
+                                                          input_desc,
+                                                          input.buffer(),
+                                                          weight_desc,
+                                                          weight.buffer(),
+                                                          conv_desc,
+                                                          algo,
+                                                          workspace,
+                                                          workspace_size,
+                                                          &beta,
+                                                          output_desc,
+                                                          output.buffer(),
+                                                          bias_desc,
+                                                          bias->buffer(),
+                                                          activation_desc,
+                                                          output_desc,
+                                                          output.buffer()));
+
+        CUDNN_CHECK(cudnnDestroyActivationDescriptor(activation_desc));
+        CUDNN_CHECK(cudnnDestroyTensorDescriptor(bias_desc));
+
+      } else {
+        CUDNN_CHECK(cudnnConvolutionForward(handle,
+                                            &alpha,
+                                            input_desc,
+                                            input.buffer(),
+                                            weight_desc,
+                                            weight.buffer(),
+                                            conv_desc,
+                                            algo,
+                                            workspace,
+                                            workspace_size,
+                                            &beta,
+                                            output_desc,
+                                            output.buffer()));
+      }
+
+      if (workspace)
+        get_allocator<Device::CUDA>().free(workspace);
+
+      CUDNN_CHECK(cudnnDestroyConvolutionDescriptor(conv_desc));
+      CUDNN_CHECK(cudnnDestroyFilterDescriptor(weight_desc));
+      CUDNN_CHECK(cudnnDestroyTensorDescriptor(input_desc));
+      CUDNN_CHECK(cudnnDestroyTensorDescriptor(output_desc));
+    }
+
+#define DECLARE_IMPL(T)                                                 \
+    template void                                                       \
+    Conv1D::compute<Device::CUDA, T>(const StorageView& input,          \
+                                     const StorageView& weight,         \
+                                     const StorageView* bias,           \
+                                     StorageView& output,               \
+                                     const StorageView* qscale) const;
+
+    DECLARE_IMPL(float)
+    DECLARE_IMPL(float16_t)
+    DECLARE_IMPL(bfloat16_t)
+
+  }
+}
diff --git a/src/ops/conv1d_gpu.cu b/src/ops/conv1d_gpu.cu