Add cuda_ops folder and cuda method for jagged_2D_tensor_concat

Runchu Zhao · Runchu Zhao · commit d5d02a3d9719 · 2025-05-15T06:32:30.000Z
diff --git a/examples/hstu/ops/cuda_ops/JaggedTensorOpFunction.py b/examples/hstu/ops/cuda_ops/JaggedTensorOpFunction.py
@@ -0,0 +1,69 @@
+import math
+import torch
+from typing import List, Tuple
+import fbgemm_gpu
+from torchrec.sparse.jagged_tensor import JaggedTensor
+
+import jagged_tensor_op
+
+class _JaggedTensorOpFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, offsets_list: List[torch.Tensor], max_seqlens: List[int], *values_list):
+
+        if len(offsets_list) == 1:
+            single_offsets = offsets_list[0]
+            lengths = single_offsets[1:] - single_offsets[:-1]
+            ctx.mark_non_differentiable(lengths)
+            return values_list[0], lengths
+        
+        dim_list = [v.size(-1) for v in values_list]
+        assert all(dim == dim_list[0] for dim in dim_list), "All tensors must have the same value dimension"
+
+        with torch.cuda.nvtx.range("Calculate merged offsets", color="purple"):
+            merged_offsets = offsets_list[0].clone()
+            for offset_tensor in offsets_list[1:]:
+                merged_offsets.add_(offset_tensor)
+        
+        ctx.save_for_backward(merged_offsets, *offsets_list)
+        total_length = merged_offsets[-1].item()
+        hidden_dim = values_list[0].size(-1)
+        merged_lengths = []
+        for offsets_tensor in offsets_list:
+            lengths = offsets_tensor[1:] - offsets_tensor[:-1]
+            merged_lengths.append(lengths)
+
+        merged_lengths = torch.sum(
+            torch.concat([lengths.view(-1, 1) for lengths in merged_lengths], dim=1), dim=1)
+        ctx.mark_non_differentiable(merged_lengths)
+
+        with torch.cuda.nvtx.range("merged values mem alloc", color="purple"):
+            merged_values = (
+                torch.empty(
+                    (total_length, hidden_dim),
+                    dtype=values_list[0].dtype,
+                    device=values_list[0].device,
+                )
+                .requires_grad_(True)
+            )
+
+        with torch.cuda.nvtx.range("Cpp part forward", color="purple"):
+            jagged_tensor_op.concat_2D_jagged_tensors_forward(
+                values_list, 
+                offsets_list, 
+                merged_values,
+                merged_offsets
+            )
+        
+        return merged_values, merged_lengths
+
+
+    @staticmethod
+    def backward(ctx, grad_output, grad_lengths):
+        merged_offsets, *offsets_list = ctx.saved_tensors
+        grad_input = jagged_tensor_op.concat_2D_jagged_tensors_backward(grad_output, grad_lengths, offsets_list, merged_offsets)
+        return None, None, *grad_input
+
+def jagged_2D_tensor_concat(values_list: List[torch.Tensor], offsets_list: List[torch.Tensor], max_seqlens: List[int]):
+    assert len(values_list) == len(offsets_list)
+    return _JaggedTensorOpFunction.apply(offsets_list, max_seqlens, *values_list)
+
diff --git a/examples/hstu/ops/cuda_ops/csrc/jagged_tensor_op_cuda.cpp b/examples/hstu/ops/cuda_ops/csrc/jagged_tensor_op_cuda.cpp
@@ -0,0 +1,47 @@
+#include <pybind11/pybind11.h>
+#include <vector>
+#include <torch/extension.h>
+
+void concat_2D_jagged_tensors_cuda_forward (
+    const std::vector<torch::Tensor>& values_list,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_values,
+    torch::Tensor merged_offsets);
+
+std::vector<torch::Tensor> concat_2D_jagged_tensors_cuda_backward(
+    torch::Tensor grad_output,
+    torch::Tensor grad_lengths,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_offsets);
+
+void concat_2D_jagged_tensors_forward (
+    const std::vector<torch::Tensor>& values_list,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_values,
+    torch::Tensor merged_offsets) {
+
+    assert(merged_values.defined());
+    concat_2D_jagged_tensors_cuda_forward(
+        values_list, 
+        offsets_list, 
+        merged_values, 
+        merged_offsets);
+    return;
+}
+
+std::vector<torch::Tensor> concat_2D_jagged_tensors_backward(
+    torch::Tensor grad_output,
+    torch::Tensor grad_lengths,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_offsets) {
+    return concat_2D_jagged_tensors_cuda_backward(
+        grad_output, 
+        grad_lengths,
+        offsets_list,
+        merged_offsets);
+}
+
+PYBIND11_MODULE(jagged_tensor_op, m) {
+  m.def("concat_2D_jagged_tensors_forward", &concat_2D_jagged_tensors_forward, "JaggedTensor concat forward (CUDA)");
+  m.def("concat_2D_jagged_tensors_backward", &concat_2D_jagged_tensors_backward, "JaggedTensor concat backward (CUDA)");
+}
diff --git a/examples/hstu/ops/cuda_ops/csrc/jagged_tensor_op_kernel.cu b/examples/hstu/ops/cuda_ops/csrc/jagged_tensor_op_kernel.cu
@@ -0,0 +1,172 @@
+#include <ATen/Functions.h>
+#include <torch/torch.h>
+#include <torch/extension.h>
+#include <vector>
+#include <cuda.h>
+#include <cuda_runtime.h>
+#include <vector>
+#include <c10/cuda/CUDAException.h>
+#include <ATen/cuda/CUDAContext.h>
+constexpr int kMaxNumTensors = 32;
+template <typename T>
+struct InputJaggedTensor {
+	T* value_list[kMaxNumTensors];
+	int32_t* offsets_list[kMaxNumTensors];
+};
+
+
+template <typename T>
+__global__ void concat_2D_jagged_tensors_forward_kernel(
+	const InputJaggedTensor<T> input_jagged_tensor,
+	const int32_t num_tensors,
+	const int32_t num_rows,
+	const int32_t hidden_dim,
+	T* merged_values,
+    int* merged_offsets) {
+	
+	int row = blockIdx.x * blockDim.x + threadIdx.x;
+	if (row >= num_rows) return;
+	int out_idx = merged_offsets[row];
+
+	for (int t = 0; t < num_tensors; ++t) {
+		const T* values = input_jagged_tensor.value_list[t];
+		const int32_t* offsets = input_jagged_tensor.offsets_list[t];
+		int start = offsets[row];
+		int end = offsets[row + 1];
+
+		for (int i = start; i < end; ++i) {
+			for (int h = 0; h < hidden_dim; ++h) {
+				merged_values[out_idx * hidden_dim + h] = values[i * hidden_dim + h];
+			}
+			out_idx++;
+		} 
+	}
+}
+
+__global__ void concat_1D_jagged_tensor_kernel(
+	const float** values_list,
+	const int** offsets_list,
+	int num_tensor,
+	int num_rows,//total_length
+	float* merged_values,
+	int* merged_offsets){
+	
+    int row = blockIdx.x * blockDim.x + threadIdx.x;
+	if (row >= num_rows) return;
+
+	int out_idx = merged_offsets[row]; // data start from this row
+	for(int i = 0; i < num_tensor; i++){
+		const float* values = values_list[i];
+		const int* offsets = offsets_list[i];
+		int st = offsets[row];
+		int end = offsets[row+1];
+		for(int j = st; j < end; j++){
+			merged_values[out_idx++] = values[j];
+		}
+	}
+}
+
+void concat_2D_jagged_tensors_cuda_forward (
+    const std::vector<torch::Tensor>& values_list,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_values,
+    torch::Tensor merged_offsets){
+
+    int num_tensors = values_list.size();
+    int num_rows = offsets_list[0].size(0) - 1;
+    int hidden_dim = values_list[0].size(-1);
+
+	InputJaggedTensor<float> input_jagged_tensor;
+    for (int i = 0; i < num_tensors; ++i) {
+		input_jagged_tensor.value_list[i] = values_list[i].data_ptr<float>();
+		input_jagged_tensor.offsets_list[i] = offsets_list[i].data_ptr<int32_t>();
+    }
+
+    int threads = 128;
+    int blocks = (num_rows + threads - 1) / threads;
+
+    assert(merged_values.is_contiguous());
+
+    at::cuda::CUDAStream stream = at::cuda::getCurrentCUDAStream();
+
+    concat_2D_jagged_tensors_forward_kernel<float><<<blocks, threads, 0, stream>>>(
+		input_jagged_tensor,
+        num_tensors,
+        num_rows,
+        hidden_dim,
+        merged_values.data_ptr<float>(),
+        merged_offsets.data_ptr<int>()
+    );
+    C10_CUDA_KERNEL_LAUNCH_CHECK();
+
+    return; 
+}
+
+template <typename T>
+__global__ void concat_2D_jagged_tensors_backward_kernel(
+    const InputJaggedTensor<T> grad_jagged_tensor,
+    const int32_t num_tensors,
+    const int32_t num_rows,
+    const int32_t hidden_dim,
+    const T* grad_output,
+    int* merged_offsets) {
+    
+    int row = blockIdx.x * blockDim.x + threadIdx.x;
+    if (row >= num_rows) return;
+    int out_idx = merged_offsets[row];
+
+    for (int t = 0; t < num_tensors; ++t) {
+        T* grad_values = grad_jagged_tensor.value_list[t];
+        const int32_t* offsets = grad_jagged_tensor.offsets_list[t];
+        int start = offsets[row];
+        int end = offsets[row + 1];
+        for (int i = start; i < end; ++i) {
+            for (int h = 0; h < hidden_dim; ++h) {
+                grad_values[i * hidden_dim + h] = grad_output[out_idx * hidden_dim + h];
+            }
+            out_idx++;
+        }
+    }
+}
+
+std::vector<torch::Tensor> concat_2D_jagged_tensors_cuda_backward(
+    torch::Tensor grad_output,
+    torch::Tensor grad_lengths,
+    const std::vector<torch::Tensor>& offsets_list,
+    torch::Tensor merged_offsets) {
+
+    int num_tensors = offsets_list.size();
+    int num_rows = grad_lengths.size(0);
+    int hidden_dim = grad_output.size(-1);
+
+    std::vector<torch::Tensor> grad_inputs(num_tensors);
+    for (int i = 0; i < num_tensors; ++i) {
+        int tensor_size = offsets_list[i][-1].item<int>();
+        grad_inputs[i] = torch::empty(
+            {tensor_size, hidden_dim},
+            grad_output.options()
+        );
+    }
+
+    InputJaggedTensor<float> grad_jagged_tensor;
+    for (int i = 0; i < num_tensors; ++i) {
+        grad_jagged_tensor.value_list[i] = grad_inputs[i].data_ptr<float>();
+        grad_jagged_tensor.offsets_list[i] = offsets_list[i].data_ptr<int32_t>();
+    }
+
+    at::cuda::CUDAStream stream = at::cuda::getCurrentCUDAStream();
+    int threads = 128;
+    int blocks = (num_rows + threads - 1) / threads;
+
+    concat_2D_jagged_tensors_backward_kernel<float><<<blocks, threads, 0, stream>>>(
+        grad_jagged_tensor,
+        num_tensors,
+        num_rows,
+        hidden_dim,
+        grad_output.data_ptr<float>(),
+        merged_offsets.data_ptr<int>()
+    );
+    C10_CUDA_KERNEL_LAUNCH_CHECK();
+
+    return grad_inputs;
+}
diff --git a/examples/hstu/ops/cuda_ops/setup.py b/examples/hstu/ops/cuda_ops/setup.py
@@ -0,0 +1,45 @@
+import os
+from setuptools import setup
+from torch.utils.cpp_extension import BuildExtension, CUDAExtension
+
+def nvcc_threads_args():
+    nvcc_threads = os.getenv("NVCC_THREADS") or "4"
+    return ["--threads", nvcc_threads]
+
+nvcc_flags = [
+    "-g",
+    "-O3",
+    "-std=c++17",
+    "-U__CUDA_NO_HALF_OPERATORS__",
+    "-U__CUDA_NO_HALF_CONVERSIONS__",
+    "-U__CUDA_NO_BFLOAT16_OPERATORS__",
+    "-U__CUDA_NO_BFLOAT16_CONVERSIONS__",
+    "-U__CUDA_NO_BFLOAT162_OPERATORS__",
+    "-U__CUDA_NO_BFLOAT162_CONVERSIONS__",
+    "--expt-relaxed-constexpr",
+    "--expt-extended-lambda",
+    "--use_fast_math",
+]
+cc_flag = []
+cc_flag.append("-gencode")
+cc_flag.append("arch=compute_80,code=sm_80")
+setup(
+    name='jagged_tensor_op',
+    author='Runchu Zhao',
+    description='JaggedTensor concat forward and backward',
+    ext_modules=[
+        CUDAExtension(
+            name='jagged_tensor_op',
+            sources=['csrc/jagged_tensor_op_cuda.cpp', 'csrc/jagged_tensor_op_kernel.cu'],
+            extra_compile_args={
+                "cxx": ["-O3", "-std=c++17"],
+                # "nvcc": nvcc_threads_args() + nvcc_flags + cc_flag,
+                "nvcc": nvcc_threads_args() + nvcc_flags,
+                # "nvcc": ["-O2"],
+            }
+        )
+    ],
+    cmdclass={
+        'build_ext': BuildExtension
+    }
+)
diff --git a/examples/hstu/ops/cuda_ops/test_jagged_tensor.py b/examples/hstu/ops/cuda_ops/test_jagged_tensor.py