pytorch
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/cublas_utils.h‎
Lines changed: 0 additions & 22 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/cublas_utils.h‎
Lines changed: 0 additions & 22 deletions
diff --git a/‎fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu‎
Lines changed: 14 additions & 2 deletions b/‎fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu‎
Lines changed: 14 additions & 2 deletions
@@ -10,13 +10,25 @@
 #include <ATen/cuda/CUDAContext.h>
 #include <c10/core/ScalarType.h>
 #include <c10/cuda/CUDAGuard.h>
-
-#include "cublas_utils.h"
+#include <cublas_v2.h>
 
 namespace fbgemm_gpu {
 
 #if CUDART_VERSION >= 12000
 
+#define CUBLAS_WORKSPACE_SIZE 4194304
+
+namespace {
+
+inline void checkCublasStatus(cublasStatus_t status) {
+  if (status != CUBLAS_STATUS_SUCCESS) {
+    printf("cuBLAS API failed with status %d\n", status);
+    throw std::logic_error("cuBLAS API failed");
+  }
+}
+
+} // namespace
+
 at::Tensor f8f8bf16_cublas(
     at::Tensor A, // FP8
     at::Tensor B, // FP8