Fix ROCm build I broke (#4902)

cthi · facebook-github-bot · commit 3cefe0564a8c · 2025-09-20T22:03:45.000-07:00
Summary: X-link: facebookresearch/FBGEMM#1929 Pull Request resolved: #4902 Broke the ROCm build by accident in D82855103 :(. Since the function is cuda specific, we can just only include it when being used for cuda for now. For some reason it cannot build properly standalone still in fbcode, which Is why I originally tried to move it to inline header, but that broke OSS since hipify would not get run. Reviewed By: q10 Differential Revision: D82895451 fbshipit-source-id: 41553cf51c8a93f72f891e206de97ff00fd108dc
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/common/include/fbgemm_gpu/quantize/utils.h b/fbgemm_gpu/experimental/gen_ai/src/quantize/common/include/fbgemm_gpu/quantize/utils.h
@@ -11,8 +11,6 @@
 #include <climits>
 #include <cstdint>
 
-#include <ATen/cuda/CUDAContext.h>
-
 namespace fbgemm_gpu {
 
 constexpr int64_t nextPowerOf2(int64_t num) {
@@ -21,19 +19,4 @@ constexpr int64_t nextPowerOf2(int64_t num) {
   return 1 << (CHAR_BIT * sizeof(num) - __builtin_clz(num - 1));
 }
 
-inline int getDeviceArch() {
-  static int arch = []() {
-    const int majorVersion =
-        at::cuda::getDeviceProperties(at::cuda::current_device())->major;
-    if (majorVersion >= 10) {
-      int runtimeVersion = 0;
-      C10_CUDA_CHECK(cudaRuntimeGetVersion(&runtimeVersion));
-      TORCH_CHECK(
-          runtimeVersion >= 12080, "SM100a+ kernels require cuda >= 12.8");
-    }
-    return majorVersion;
-  }();
-  return arch;
-}
-
 } // namespace fbgemm_gpu
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/common/include/fbgemm_gpu/quantize/utils_gpu.h b/fbgemm_gpu/experimental/gen_ai/src/quantize/common/include/fbgemm_gpu/quantize/utils_gpu.h
@@ -0,0 +1,30 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#pragma once
+
+#include <ATen/cuda/CUDAContext.h>
+
+namespace fbgemm_gpu {
+
+inline int getDeviceArch() {
+  static int arch = []() {
+    const int majorVersion =
+        at::cuda::getDeviceProperties(at::cuda::current_device())->major;
+    if (majorVersion >= 10) {
+      int runtimeVersion = 0;
+      C10_CUDA_CHECK(cudaRuntimeGetVersion(&runtimeVersion));
+      TORCH_CHECK(
+          runtimeVersion >= 12080, "SM100a+ kernels require cuda >= 12.8");
+    }
+    return majorVersion;
+  }();
+  return arch;
+}
+
+} // namespace fbgemm_gpu
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu
@@ -12,6 +12,7 @@
 #include "bf16bf16bf16_grouped/bf16bf16bf16_grouped_manifest.cuh"
 #include "fbgemm_gpu/quantize/tuning_cache.hpp"
 #include "fbgemm_gpu/quantize/utils.h"
+#include "fbgemm_gpu/quantize/utils_gpu.h"
 
 namespace fbgemm_gpu {
 
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_groupwise.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_groupwise.cu
@@ -13,6 +13,7 @@
 #include "f8f8bf16_groupwise/f8f8bf16_groupwise_manifest.cuh"
 #include "fbgemm_gpu/quantize/tuning_cache.hpp"
 #include "fbgemm_gpu/quantize/utils.h"
+#include "fbgemm_gpu/quantize/utils_gpu.h"
 
 namespace fbgemm_gpu {
 
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched.cu
@@ -11,6 +11,7 @@
 #include "f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_manifest.cuh"
 
 #include "fbgemm_gpu/quantize/utils.h"
+#include "fbgemm_gpu/quantize/utils_gpu.h"
 
 namespace fbgemm_gpu {
 
diff --git a/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu b/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu
@@ -14,6 +14,7 @@
 #include "f8f8bf16_rowwise_grouped_sm100/f8f8bf16_rowwise_grouped_manifest.cuh"
 #include "fbgemm_gpu/quantize/tuning_cache.hpp"
 #include "fbgemm_gpu/quantize/utils.h"
+#include "fbgemm_gpu/quantize/utils_gpu.h"
 
 namespace fbgemm_gpu {