Optimize embedding kernel with vectorized memory access and __ldg

gongchensu · gongchensu · commit 246fd9c89794 · 2025-12-26T08:32:25.000Z
- Add vectorized memory access using float4/float2, half2, and bfloat162
- Use __ldg instruction for read-only weight and indices access
- Add memory alignment checks to enable vectorized paths
- Add __restrict__ keywords for better compiler optimization
- Implement dynamic block size selection based on embedding_dim
diff --git a/src/infiniop/ops/embedding/nvidia/embedding_kernel.cuh b/src/infiniop/ops/embedding/nvidia/embedding_kernel.cuh
@@ -3,43 +3,171 @@
 
 #include "../../../devices/nvidia/nvidia_kernel_common.cuh"
 #include <cuda_runtime.h>
+#include <cuda_fp16.h>
+#include <type_traits>
 
 namespace op::embedding::nvidia {
 
+// Helper function to check memory alignment
+__forceinline__ __device__ bool is_aligned(const void *ptr, size_t alignment) {
+    // Use size_t for pointer arithmetic in device code (more compatible)
+    return (reinterpret_cast<size_t>(ptr) % alignment == 0);
+}
+
+// Vectorized copy for float type using float4
+template <typename IndexType>
+__forceinline__ __device__ void copyVectorizedFloat4(
+    float *__restrict__ dst,
+    const float *__restrict__ src,
+    size_t embedding_dim) {
+    // Use float4 for vectorized access (16 bytes, 4 floats)
+    const float4 *src_vec = reinterpret_cast<const float4 *>(src);
+    float4 *dst_vec = reinterpret_cast<float4 *>(dst);
+    size_t vec_count = embedding_dim / 4;
+    
+    // Vectorized copy using __ldg for read-only weight
+    for (size_t i = 0; i < vec_count; ++i) {
+        dst_vec[i] = __ldg(&src_vec[i]);
+    }
+    
+    // Copy remaining elements
+    size_t remaining = embedding_dim % 4;
+    if (remaining > 0) {
+        size_t offset = vec_count * 4;
+        for (size_t i = 0; i < remaining; ++i) {
+            dst[offset + i] = __ldg(&src[offset + i]);
+        }
+    }
+}
+
+// Vectorized copy for float type using float2 (fallback when not aligned to 16 bytes)
+template <typename IndexType>
+__forceinline__ __device__ void copyVectorizedFloat2(
+    float *__restrict__ dst,
+    const float *__restrict__ src,
+    size_t embedding_dim) {
+    // Use float2 for vectorized access (8 bytes, 2 floats)
+    const float2 *src_vec = reinterpret_cast<const float2 *>(src);
+    float2 *dst_vec = reinterpret_cast<float2 *>(dst);
+    size_t vec_count = embedding_dim / 2;
+    
+    // Vectorized copy using __ldg for read-only weight
+    for (size_t i = 0; i < vec_count; ++i) {
+        dst_vec[i] = __ldg(&src_vec[i]);
+    }
+    
+    // Copy remaining element if odd
+    if (embedding_dim % 2 != 0) {
+        dst[embedding_dim - 1] = __ldg(&src[embedding_dim - 1]);
+    }
+}
+
+// Vectorized copy for half type using half2
+template <typename IndexType>
+__forceinline__ __device__ void copyVectorizedHalf2(
+    half *__restrict__ dst,
+    const half *__restrict__ src,
+    size_t embedding_dim) {
+    // Use half2 for vectorized access (4 bytes, 2 halfs)
+    const half2 *src_vec = reinterpret_cast<const half2 *>(src);
+    half2 *dst_vec = reinterpret_cast<half2 *>(dst);
+    size_t vec_count = embedding_dim / 2;
+    
+    // Vectorized copy using __ldg for read-only weight
+    for (size_t i = 0; i < vec_count; ++i) {
+        dst_vec[i] = __ldg(&src_vec[i]);
+    }
+    
+    // Copy remaining element if odd
+    if (embedding_dim % 2 != 0) {
+        dst[embedding_dim - 1] = __ldg(&src[embedding_dim - 1]);
+    }
+}
+
+// Vectorized copy for bfloat16 type using bfloat162
+template <typename IndexType>
+__forceinline__ __device__ void copyVectorizedBFloat162(
+    cuda_bfloat16 *__restrict__ dst,
+    const cuda_bfloat16 *__restrict__ src,
+    size_t embedding_dim) {
+    // Use bfloat162 for vectorized access (4 bytes, 2 bfloat16s)
+    const cuda_bfloat162 *src_vec = reinterpret_cast<const cuda_bfloat162 *>(src);
+    cuda_bfloat162 *dst_vec = reinterpret_cast<cuda_bfloat162 *>(dst);
+    size_t vec_count = embedding_dim / 2;
+    
+    // Vectorized copy using __ldg for read-only weight
+    for (size_t i = 0; i < vec_count; ++i) {
+        dst_vec[i] = __ldg(&src_vec[i]);
+    }
+    
+    // Copy remaining element if odd
+    if (embedding_dim % 2 != 0) {
+        dst[embedding_dim - 1] = __ldg(&src[embedding_dim - 1]);
+    }
+}
+
+// Scalar copy fallback with __ldg optimization
+template <typename T, typename IndexType>
+__forceinline__ __device__ void copyScalar(
+    T *__restrict__ dst,
+    const T *__restrict__ src,
+    size_t embedding_dim) {
+    // Scalar copy with __ldg for read-only weight
+    for (size_t i = 0; i < embedding_dim; ++i) {
+        dst[i] = __ldg(&src[i]);
+    }
+}
+
 template <typename T, typename IndexType>
 INFINIOP_CUDA_KERNEL embeddingKernel(
-    T *output,
-    const IndexType *indices,
-    const T *weight,
+    T *__restrict__ output,
+    const IndexType *__restrict__ indices,
+    const T *__restrict__ weight,
     size_t num_indices,
     size_t embedding_dim,
     size_t vocab_size) {
     // Calculate global thread index
     size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
-
+    
     if (idx < num_indices) {
         // Get the index value
-        IndexType index_val = indices[idx];
-
+        IndexType index_val = __ldg(&indices[idx]);
+        
         // Bounds check - handle negative indices gracefully
         if (index_val >= 0 && static_cast<size_t>(index_val) < vocab_size) {
             // Copy embedding vector from weight to output
             const T *src = weight + static_cast<size_t>(index_val) * embedding_dim;
             T *dst = output + idx * embedding_dim;
-
-            // Copy embedding_dim elements
-            // Use vectorized copy for better performance when possible
-            size_t i = 0;
-            // Copy in chunks of 4 for better memory bandwidth utilization
-            for (; i + 4 <= embedding_dim; i += 4) {
-                dst[i] = src[i];
-                dst[i + 1] = src[i + 1];
-                dst[i + 2] = src[i + 2];
-                dst[i + 3] = src[i + 3];
-            }
-            // Copy remaining elements
-            for (; i < embedding_dim; ++i) {
-                dst[i] = src[i];
+            
+            // Choose optimal copy strategy based on type and alignment
+            if constexpr (std::is_same_v<T, float>) {
+                // Check alignment for float4 (16 bytes)
+                bool aligned_16 = is_aligned(src, 16) && is_aligned(dst, 16);
+                if (aligned_16 && embedding_dim >= 4 && embedding_dim % 4 == 0) {
+                    copyVectorizedFloat4<IndexType>(dst, src, embedding_dim);
+                } else if (embedding_dim >= 2 && embedding_dim % 2 == 0) {
+                    // Try float2 if not aligned to 16 bytes
+                    copyVectorizedFloat2<IndexType>(dst, src, embedding_dim);
+                } else {
+                    copyScalar<T, IndexType>(dst, src, embedding_dim);
+                }
+            } else if constexpr (std::is_same_v<T, half>) {
+                // Use half2 for vectorized access
+                if (embedding_dim >= 2 && embedding_dim % 2 == 0) {
+                    copyVectorizedHalf2<IndexType>(dst, src, embedding_dim);
+                } else {
+                    copyScalar<T, IndexType>(dst, src, embedding_dim);
+                }
+            } else if constexpr (std::is_same_v<T, cuda_bfloat16>) {
+                // Use bfloat162 for vectorized access
+                if (embedding_dim >= 2 && embedding_dim % 2 == 0) {
+                    copyVectorizedBFloat162<IndexType>(dst, src, embedding_dim);
+                } else {
+                    copyScalar<T, IndexType>(dst, src, embedding_dim);
+                }
+            } else {
+                // Fallback to scalar copy with __ldg
+                copyScalar<T, IndexType>(dst, src, embedding_dim);
             }
         }
     }
diff --git a/src/infiniop/ops/embedding/nvidia/embedding_nvidia.cu b/src/infiniop/ops/embedding/nvidia/embedding_nvidia.cu
@@ -1,7 +1,7 @@
-#include "../../../../utils.h"
 #include "../../../devices/nvidia/nvidia_common.cuh"
 #include "../../../devices/nvidia/nvidia_kernel_common.cuh"
 #include "../../../tensor.h"
+#include "../../../../utils.h"
 #include "embedding_kernel.cuh"
 #include "embedding_nvidia.cuh"
 #include <cuda_runtime.h>
@@ -25,36 +25,37 @@ infiniStatus_t Descriptor::create(
 
     auto input_shape = input_desc->shape();
     auto weight_shape = weight_desc->shape();
-
+    
     // Validate shapes
     CHECK_OR_RETURN(weight_shape.size() == 2, INFINI_STATUS_BAD_TENSOR_SHAPE);
     CHECK_OR_RETURN(output_desc->shape().size() == input_shape.size() + 1, INFINI_STATUS_BAD_TENSOR_SHAPE);
-
+    
     // Check output shape matches input shape + embedding_dim
     auto output_shape = output_desc->shape();
     size_t embedding_dim = weight_shape[1];
     CHECK_OR_RETURN(output_shape.back() == embedding_dim, INFINI_STATUS_BAD_TENSOR_SHAPE);
-
+    
     for (size_t i = 0; i < input_shape.size(); ++i) {
         CHECK_OR_RETURN(output_shape[i] == input_shape[i], INFINI_STATUS_BAD_TENSOR_SHAPE);
     }
-
+    
     // Validate dtypes
     auto input_dtype = input_desc->dtype();
     auto weight_dtype = weight_desc->dtype();
     CHECK_OR_RETURN(input_dtype == INFINI_DTYPE_I32 || input_dtype == INFINI_DTYPE_I64,
                     INFINI_STATUS_BAD_TENSOR_DTYPE);
-    CHECK_OR_RETURN(weight_dtype == INFINI_DTYPE_F32 || weight_dtype == INFINI_DTYPE_F16 || weight_dtype == INFINI_DTYPE_BF16, INFINI_STATUS_BAD_TENSOR_DTYPE);
+    CHECK_OR_RETURN(weight_dtype == INFINI_DTYPE_F32 || weight_dtype == INFINI_DTYPE_F16 ||
+                    weight_dtype == INFINI_DTYPE_BF16, INFINI_STATUS_BAD_TENSOR_DTYPE);
     CHECK_OR_RETURN(output_desc->dtype() == weight_dtype, INFINI_STATUS_BAD_TENSOR_DTYPE);
-
+    
     // Calculate number of indices (supporting batch dimension)
     size_t num_indices = 1;
     for (auto dim : input_shape) {
         num_indices *= dim;
     }
-
+    
     size_t vocab_size = weight_shape[0];
-
+    
     *desc_ptr = new Descriptor(
         num_indices,
         embedding_dim,
@@ -64,7 +65,7 @@ infiniStatus_t Descriptor::create(
         new Opaque{reinterpret_cast<device::nvidia::Handle *>(handle)->internal()},
         handle->device,
         handle->device_id);
-
+    
     return INFINI_STATUS_SUCCESS;
 }
 
@@ -73,37 +74,47 @@ infiniStatus_t Descriptor::calculate(
     const void *input,
     const void *weight,
     void *stream) const {
-
+    
     if (_num_indices == 0) {
         return INFINI_STATUS_SUCCESS;
     }
-
+    
     auto cuda_stream = reinterpret_cast<cudaStream_t>(stream);
-    constexpr size_t BLOCK_SIZE = 256;
-    size_t grid_size = (_num_indices + BLOCK_SIZE - 1) / BLOCK_SIZE;
-
+    
+    // Dynamic block size optimization based on embedding_dim
+    // Smaller embedding_dim benefits from larger block size (better occupancy)
+    // Larger embedding_dim benefits from smaller block size (more registers per thread)
+    size_t block_size = 256;  // Default
+    if (_embedding_dim <= 64) {
+        block_size = 512;  // Small embedding_dim: use larger block for better occupancy
+    } else if (_embedding_dim >= 1024) {
+        block_size = 128;  // Large embedding_dim: use smaller block to reduce register pressure
+    }
+    
+    size_t grid_size = (_num_indices + block_size - 1) / block_size;
+    
     // Launch kernel based on dtypes
     if (_input_dtype == INFINI_DTYPE_I32) {
         const int32_t *indices_ptr = reinterpret_cast<const int32_t *>(input);
-
+        
         if (_weight_dtype == INFINI_DTYPE_F32) {
-            embeddingKernel<float, int32_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<float, int32_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<float *>(output),
                 indices_ptr,
                 reinterpret_cast<const float *>(weight),
                 _num_indices,
                 _embedding_dim,
                 _vocab_size);
         } else if (_weight_dtype == INFINI_DTYPE_F16) {
-            embeddingKernel<half, int32_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<half, int32_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<half *>(output),
                 indices_ptr,
                 reinterpret_cast<const half *>(weight),
                 _num_indices,
                 _embedding_dim,
                 _vocab_size);
         } else if (_weight_dtype == INFINI_DTYPE_BF16) {
-            embeddingKernel<cuda_bfloat16, int32_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<cuda_bfloat16, int32_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<cuda_bfloat16 *>(output),
                 indices_ptr,
                 reinterpret_cast<const cuda_bfloat16 *>(weight),
@@ -115,25 +126,25 @@ infiniStatus_t Descriptor::calculate(
         }
     } else if (_input_dtype == INFINI_DTYPE_I64) {
         const int64_t *indices_ptr = reinterpret_cast<const int64_t *>(input);
-
+        
         if (_weight_dtype == INFINI_DTYPE_F32) {
-            embeddingKernel<float, int64_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<float, int64_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<float *>(output),
                 indices_ptr,
                 reinterpret_cast<const float *>(weight),
                 _num_indices,
                 _embedding_dim,
                 _vocab_size);
         } else if (_weight_dtype == INFINI_DTYPE_F16) {
-            embeddingKernel<half, int64_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<half, int64_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<half *>(output),
                 indices_ptr,
                 reinterpret_cast<const half *>(weight),
                 _num_indices,
                 _embedding_dim,
                 _vocab_size);
         } else if (_weight_dtype == INFINI_DTYPE_BF16) {
-            embeddingKernel<cuda_bfloat16, int64_t><<<grid_size, BLOCK_SIZE, 0, cuda_stream>>>(
+            embeddingKernel<cuda_bfloat16, int64_t><<<grid_size, block_size, 0, cuda_stream>>>(
                 reinterpret_cast<cuda_bfloat16 *>(output),
                 indices_ptr,
                 reinterpret_cast<const cuda_bfloat16 *>(weight),
@@ -146,13 +157,13 @@ infiniStatus_t Descriptor::calculate(
     } else {
         return INFINI_STATUS_BAD_TENSOR_DTYPE;
     }
-
+    
     // Check for kernel launch errors
     cudaError_t err = cudaGetLastError();
     if (err != cudaSuccess) {
         return INFINI_STATUS_INTERNAL_ERROR;
     }
-
+    
     return INFINI_STATUS_SUCCESS;
 }