Add output as an option in CUTLASS grouped GEMM (#4931)

jiawenliu64 · facebook-github-bot · commit c1f22a94ffcf · 2025-09-24T14:35:25.000-07:00
Summary: Pull Request resolved: #4931 X-link: facebookresearch/FBGEMM#1954 Enable output as an option in CUTLASS grouped GEMM, as pretraining requires assigning empty preallocated output tensor for usecases in fprop and dgrad. Reviewed By: cthi Differential Revision: D83126291 fbshipit-source-id: 26761307d472f9421f115a8c83cc01ceaf28c7ce
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/bf16_grouped_gemm.hip b/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/bf16_grouped_gemm.hip
@@ -515,7 +515,8 @@ at::Tensor bf16bf16bf16_grouped_dynamic(
 at::Tensor bf16bf16bf16_grouped_stacked(
     at::Tensor X,
     at::Tensor W,
-    at::Tensor M_sizes) {
+    at::Tensor M_sizes,
+    std::optional<at::Tensor> out) {
   // Check that input datatypes are valid.
   // First confirm that there are the same number of groups in all inputs.
   int64_t group_count = M_sizes.size(0);
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu
@@ -345,8 +345,11 @@ at::Tensor bf16bf16bf16_grouped_cat(at::TensorList X, at::TensorList W) {
   return _bf16bf16bf16_grouped<at::Tensor>(X, W);
 }
 
-at::Tensor
-bf16bf16bf16_grouped_stacked(at::Tensor X, at::Tensor W, at::Tensor M_sizes) {
+at::Tensor bf16bf16bf16_grouped_stacked(
+    at::Tensor X,
+    at::Tensor W,
+    at::Tensor M_sizes,
+    std::optional<at::Tensor> out) {
   int64_t total_M = X.size(0);
   int64_t N = W.size(1);
   int64_t K = W.size(2);
@@ -356,15 +359,22 @@ bf16bf16bf16_grouped_stacked(at::Tensor X, at::Tensor W, at::Tensor M_sizes) {
       "M_sizes must be on same device as inputs.");
   TORCH_CHECK(
       W.dim() == 3 && W.size(0) == G, "Weights should be shape [G, N, K].")
-  at::Tensor Y = at::empty(total_M * N, X.options().dtype(at::kBFloat16));
+
+  at::Tensor Y;
+  if (out.has_value()) {
+    Y = out.value();
+  } else {
+    Y = at::empty(total_M * N, X.options().dtype(at::kBFloat16));
+  }
+
   // Early exit for empty inputs.
   if (total_M == 0) {
     return Y.view({total_M, N});
   }
   // Return continuous view of output.
-  at::Tensor out = dispatch_bf16_grouped_kernel<at::Tensor>(
+  at::Tensor output = dispatch_bf16_grouped_kernel<at::Tensor>(
       G, total_M, N, K, X, W, Y, std::nullopt, M_sizes);
-  return out.view({total_M, N});
+  return output.view({total_M, N});
 }
 
 at::Tensor bf16bf16bf16_grouped_dynamic(
@@ -411,7 +421,11 @@ at::Tensor bf16bf16bf16_grouped_dynamic(
       "CUDA version is older than 12.0"); // requires CUDA>=12
 }
 
-at::Tensor bf16bf16bf16_grouped_stacked(at::Tensor, at::Tensor, at::Tensor) {
+at::Tensor bf16bf16bf16_grouped_stacked(
+    at::Tensor,
+    at::Tensor,
+    at::Tensor,
+    std::optional<at::Tensor>) {
   throw std::runtime_error(
       "CUDA version is older than 12.0"); // requires CUDA>=12
 }
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped_grad.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped_grad.cu
@@ -300,8 +300,11 @@ at::Tensor dispatch_bf16_grouped_kernel(
   return kernel(X, W, output, M_sizes);
 }
 
-at::Tensor
-bf16bf16bf16_grouped_grad(at::Tensor X, at::Tensor W, at::Tensor M_sizes) {
+at::Tensor bf16bf16bf16_grouped_grad(
+    at::Tensor X,
+    at::Tensor W,
+    at::Tensor M_sizes,
+    std::optional<at::Tensor> out) {
   int64_t total_M = X.size(0);
   int64_t N = W.size(1);
   int64_t K = W.size(2);
@@ -315,20 +318,29 @@ bf16bf16bf16_grouped_grad(at::Tensor X, at::Tensor W, at::Tensor M_sizes) {
   TORCH_CHECK(X.stride(-1) == 1, "Activation memory layout must be row-major.");
   TORCH_CHECK(W.stride(-2) == 1, "Weight memory layout must be column-major.");
 
-  at::Tensor Y = at::empty(total_M * N, X.options().dtype(at::kBFloat16));
+  at::Tensor Y;
+  if (out.has_value()) {
+    Y = out.value();
+  } else {
+    Y = at::empty(total_M * N, X.options().dtype(at::kBFloat16));
+  }
   // Early exit for empty inputs.
   if (total_M == 0) {
     return Y.view({total_M, N});
   }
   // Return continuous view of output.
-  at::Tensor out =
+  at::Tensor output =
       dispatch_bf16_grouped_kernel(G, total_M, N, K, X, W, Y, M_sizes);
-  return out.view({total_M, N});
+  return output.view({total_M, N});
 }
 
 #else
 
-at::Tensor bf16bf16bf16_grouped_grad(at::Tensor, at::Tensor, at::Tensor) {
+at::Tensor bf16bf16bf16_grouped_grad(
+    at::Tensor,
+    at::Tensor,
+    at::Tensor,
+    std::optional<at::Tensor>) {
   throw std::runtime_error(
       "CUDA version is older than 12.0"); // requires CUDA>=12
 }
@@ -338,12 +350,18 @@ at::Tensor bf16bf16bf16_grouped_grad(at::Tensor, at::Tensor, at::Tensor) {
 at::Tensor bf16bf16bf16_grouped_grad_meta(
     at::Tensor X,
     at::Tensor W,
-    at::Tensor /* M_sizes */) {
+    at::Tensor /* M_sizes */,
+    std::optional<at::Tensor> out) {
   const at::SymInt total_M = X.sym_size(0);
   const at::SymInt N = W.sym_size(1);
-  at::Tensor Y =
-      at::empty_symint({total_M, N}, X.options().dtype(at::kBFloat16));
-  return Y;
+
+  if (out.has_value()) {
+    return out.value();
+  } else {
+    at::Tensor output =
+        at::empty_symint({total_M, N}, X.options().dtype(at::kBFloat16));
+    return output;
+  }
 }
 
 TORCH_LIBRARY_IMPL(fbgemm, CUDA, m) {
@@ -356,7 +374,7 @@ TORCH_LIBRARY_IMPL(fbgemm, Meta, m) {
 
 TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
   m.def(
-      "bf16bf16bf16_grouped_grad(Tensor X, Tensor W, Tensor M_sizes) -> Tensor");
+      "bf16bf16bf16_grouped_grad(Tensor X, Tensor W, Tensor M_sizes, Tensor? out=None) -> Tensor");
 }
 
 } // namespace fbgemm_gpu
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cpp b/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cpp
@@ -76,8 +76,11 @@ at::Tensor bf16bf16bf16_grouped_dynamic(
     at::Tensor X,
     at::Tensor W,
     at::Tensor zero_start_index_M);
-at::Tensor
-bf16bf16bf16_grouped_stacked(at::Tensor X, at::Tensor W, at::Tensor M_sizes);
+at::Tensor bf16bf16bf16_grouped_stacked(
+    at::Tensor X,
+    at::Tensor W,
+    at::Tensor M_sizes,
+    std::optional<at::Tensor> out = std::nullopt);
 at::Tensor f8f8bf16_rowwise(
     at::Tensor XQ,
     at::Tensor WQ,
@@ -781,12 +784,18 @@ at::Tensor bf16bf16bf16_grouped_dynamic_meta(
 at::Tensor bf16bf16bf16_grouped_stacked_meta(
     at::Tensor X,
     at::Tensor W,
-    at::Tensor /* M_sizes */) {
+    at::Tensor /* M_sizes */,
+    std::optional<at::Tensor> out) {
   const at::SymInt total_M = X.sym_size(0);
   const at::SymInt N = W.sym_size(1);
-  at::Tensor Y =
-      at::empty_symint({total_M, N}, X.options().dtype(at::kBFloat16));
-  return Y;
+
+  if (out.has_value()) {
+    return out.value();
+  } else {
+    at::Tensor output =
+        at::empty_symint({total_M, N}, X.options().dtype(at::kBFloat16));
+    return output;
+  }
 }
 
 at::Tensor f8f8bf16_rowwise_grouped_stacked_meta(
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize_defs.cpp b/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize_defs.cpp
@@ -63,7 +63,7 @@ TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
   m.def(
       "bf16bf16bf16_grouped_dynamic(Tensor X, Tensor W, Tensor zero_start_index_M) -> Tensor");
   m.def(
-      "bf16bf16bf16_grouped_stacked(Tensor X, Tensor W, Tensor M_sizes) -> Tensor");
+      "bf16bf16bf16_grouped_stacked(Tensor X, Tensor W, Tensor M_sizes, Tensor? out=None) -> Tensor");
   m.def(
       "f8f8bf16_blockwise(Tensor XQ, Tensor WQ, Tensor x_scale, Tensor w_scale, int block_m=128, int block_n=128, int block_k=128) -> Tensor");
   m.def(
diff --git a/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py b/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py
@@ -2208,9 +2208,23 @@ class BF16Tests(unittest.TestCase):
     def setUpClass(cls):
         cls.device = torch.accelerator.current_accelerator()
 
+    def generate_random_splits(G: int, M: int) -> torch.Tensor:
+        m_cumsums = torch.sort(
+            torch.randint(
+                0,
+                M,
+                (G + 1,),
+                dtype=torch.int32,
+                device=torch.accelerator.current_accelerator(),
+            )
+        ).values
+        m_cumsums[0], m_cumsums[-1] = 0, M
+        m_sizes = m_cumsums[1:] - m_cumsums[:-1]
+        return m_sizes
+
     @unittest.skipIf(
         not torch.version.cuda,
-        "Skip on AMD: test_bf16_grouped_gemmw_wgrad not yet suported.",
+        "Skip on AMD: test_grouped_gemm_wgrad not yet suported.",
     )
     @settings(deadline=None)
     @given(
@@ -2220,7 +2234,7 @@ def setUpClass(cls):
         K=st.sampled_from([128, 1024]),
         output_accum=st.booleans(),
     )
-    def test_bf16_grouped_gemmw_wgrad(
+    def test_grouped_gemm_wgrad(
         self,
         G: int,
         M: int,
@@ -2237,21 +2251,7 @@ def test_bf16_grouped_gemmw_wgrad(
             (M, K), dtype=torch.bfloat16, device=torch.accelerator.current_accelerator()
         )
 
-        def generate_random_splits(G: int, M: int) -> torch.Tensor:
-            m_cumsums = torch.sort(
-                torch.randint(
-                    0,
-                    M,
-                    (G + 1,),
-                    dtype=torch.int32,
-                    device=torch.accelerator.current_accelerator(),
-                )
-            ).values
-            m_cumsums[0], m_cumsums[-1] = 0, M
-            m_sizes = m_cumsums[1:] - m_cumsums[:-1]
-            return m_sizes
-
-        m_sizes = generate_random_splits(G, M)
+        m_sizes = BF16Tests.generate_random_splits(G, M)
 
         # Test
         if output_accum:
@@ -2319,6 +2319,139 @@ def generate_random_splits(G: int, M: int) -> torch.Tensor:
                     rtol=1e-2,
                 )
 
+    @unittest.skipIf(
+        not torch.version.cuda,
+        "Skip on AMD: test_grouped_gemm_dgrad not yet suported.",
+    )
+    @settings(deadline=None)
+    @given(
+        G=st.sampled_from([2, 16]),
+        M=st.sampled_from([257, 2049]),
+        N=st.sampled_from([256, 2048]),
+        K=st.sampled_from([128, 1024]),
+    )
+    def test_grouped_gemm_dgrad(
+        self,
+        G: int,
+        M: int,
+        N: int,
+        K: int,
+    ) -> None:
+        torch.manual_seed(hash((G, M, N, K)))
+
+        # Inputs
+        dy_bf16 = torch.randn(
+            (M, N), dtype=torch.bfloat16, device=torch.accelerator.current_accelerator()
+        )
+        w_bf16 = torch.randn(
+            (G, N, K),
+            dtype=torch.bfloat16,
+            device=torch.accelerator.current_accelerator(),
+        )
+        m_sizes = BF16Tests.generate_random_splits(G, M)
+
+        y_bf16 = torch.ops.fbgemm.bf16bf16bf16_grouped_grad(
+            dy_bf16,
+            w_bf16.permute(0, 2, 1),
+            m_sizes.to(torch.int64),
+        )
+
+        Y_preallocated = torch.empty(
+            (M * K),
+            dtype=torch.bfloat16,
+            device=torch.accelerator.current_accelerator(),
+        )
+        y_bf16_preallocated = torch.ops.fbgemm.bf16bf16bf16_grouped_grad(
+            dy_bf16,
+            w_bf16.permute(0, 2, 1),
+            m_sizes.to(torch.int64),
+            Y_preallocated,
+        )
+
+        # Reference
+        dy_fp32 = dy_bf16.to(torch.float32)
+        w_fp32 = w_bf16.to(torch.float32)
+
+        ref_y_fp32 = torch.empty(
+            (M, K), dtype=torch.float32, device=torch.accelerator.current_accelerator()
+        )
+        m_start = 0
+        for g, m_size in enumerate(m_sizes.tolist()):
+            ref_y_fp32[m_start : m_start + m_size, :] = dy_fp32[
+                m_start : m_start + m_size, :
+            ] @ w_fp32[g, :, :].view(N, K)
+            m_start += m_size
+        ref_y_bf16 = ref_y_fp32.to(torch.bfloat16)
+
+        torch.testing.assert_close(y_bf16, ref_y_bf16, atol=1e-3, rtol=1.6e-2)
+        torch.testing.assert_close(
+            y_bf16_preallocated, ref_y_bf16, atol=1e-3, rtol=1.6e-2
+        )
+
+    @unittest.skipIf(
+        not torch.version.cuda,
+        "Skip on AMD: test_grouped_gemm_fprop not yet suported.",
+    )
+    @settings(deadline=None)
+    @given(
+        G=st.sampled_from([2, 16]),
+        M=st.sampled_from([257, 2049]),
+        N=st.sampled_from([256, 2048]),
+        K=st.sampled_from([128, 1024]),
+    )
+    def test_grouped_gemm_fprop(
+        self,
+        G: int,
+        M: int,
+        N: int,
+        K: int,
+    ) -> None:
+        torch.manual_seed(hash((G, M, N, K)))
+
+        # Inputs
+        x_bf16 = torch.randn(
+            (M, K), dtype=torch.bfloat16, device=torch.accelerator.current_accelerator()
+        )
+        w_bf16 = torch.randn(
+            (G, N, K),
+            dtype=torch.bfloat16,
+            device=torch.accelerator.current_accelerator(),
+        )
+        m_sizes = BF16Tests.generate_random_splits(G, M)
+
+        y_bf16 = torch.ops.fbgemm.bf16bf16bf16_grouped_stacked(
+            x_bf16, w_bf16, m_sizes.to(torch.int64)
+        )
+
+        Y_preallocated = torch.empty(
+            (M * N),
+            dtype=torch.bfloat16,
+            device=torch.accelerator.current_accelerator(),
+        )
+        y_bf16_Y_preallocated = torch.ops.fbgemm.bf16bf16bf16_grouped_stacked(
+            x_bf16, w_bf16, m_sizes.to(torch.int64), Y_preallocated
+        )
+
+        # Reference
+        x_fp32 = x_bf16.to(torch.float32)
+        w_fp32 = w_bf16.to(torch.float32)
+
+        ref_y_fp32 = torch.empty(
+            (M, N), dtype=torch.float32, device=torch.accelerator.current_accelerator()
+        )
+        m_start = 0
+        for g, m_size in enumerate(m_sizes.tolist()):
+            ref_y_fp32[m_start : m_start + m_size, :] = (
+                x_fp32[m_start : m_start + m_size, :] @ w_fp32[g, :, :].view(N, K).T
+            )
+            m_start += m_size
+        ref_y_bf16 = ref_y_fp32.to(torch.bfloat16)
+
+        torch.testing.assert_close(y_bf16, ref_y_bf16, atol=1e-3, rtol=1.6e-2)
+        torch.testing.assert_close(
+            y_bf16_Y_preallocated, ref_y_bf16, atol=1e-3, rtol=1.6e-2
+        )
+
 
 if __name__ == "__main__":
     unittest.main()