[ROCm] Fix indexing_backward_kernel perf (#2650)

jerrymannil · web-flow · commit 8d4269776a27 · 2025-09-17T09:18:19.000-07:00
* Revert of a1cb67b Fixes #SWDEV-552103
diff --git a/aten/src/ATen/native/cuda/Indexing.cu b/aten/src/ATen/native/cuda/Indexing.cu
@@ -55,8 +55,7 @@ constexpr uint64_t getDefaultMaxThreadsPerBlock() {
 #endif
 }
 
-#ifdef USE_ROCM
-#define SKIP_SORTED_INDICES 32
+#if 0
 template <typename scalar_t, int SZ>
 __global__ void indexing_backward_kernel(
   const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,
@@ -141,7 +140,10 @@ __global__ void indexing_backward_kernel(
     }
   }
 }
+#endif
 
+#ifdef USE_ROCM
+#define SKIP_SORTED_INDICES 32
 template <typename scalar_t>
 __global__ void indexing_backward_kernel_stride_1(
   const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,
@@ -253,7 +255,8 @@ __global__ void indexing_backward_kernel_stride_1(
     }
   }
 }
-#else
+#endif
+
 template <typename scalar_t, int SZ>
 __global__ void indexing_backward_kernel(
   const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,
@@ -332,6 +335,7 @@ __global__ void indexing_backward_kernel(
   }
 }
 
+#ifndef USE_ROCM
 template <typename scalar_t>
 __global__ void indexing_backward_kernel_stride_1(
   const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,
@@ -790,7 +794,7 @@ void index_put_with_sort_kernel(Tensor & self, const c10::List<std::optional<Ten
             expandedValue.scalar_type(),
             "indexing_backward",
             AT_WRAP([&] {
-              indexing_backward_kernel<scalar_t, UNROLL><<<KERNEL_GRID, block, KERNEL_SMEM, stream>>>(
+              indexing_backward_kernel<scalar_t, UNROLL><<<grid, block, 0, stream>>>(
                 sorted_indices.const_data_ptr<int64_t>(),
                 orig_indices.const_data_ptr<int64_t>(),
                 expandedValue.const_data_ptr<scalar_t>(),

Original file line number	Diff line number	Diff line change
`@@ -55,8 +55,7 @@ constexpr uint64_t getDefaultMaxThreadsPerBlock() {`
`55`	`55`	`#endif`
`56`	`56`	`}`
`57`	`57`
`58`		`-#ifdef USE_ROCM`
`59`		`-#define SKIP_SORTED_INDICES 32`
	`58`	`+#if 0`
`60`	`59`	`template <typename scalar_t, int SZ>`
`61`	`60`	`__global__ void indexing_backward_kernel(`
`62`	`61`	`const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,`
`@@ -141,7 +140,10 @@ __global__ void indexing_backward_kernel(`
`141`	`140`	`}`
`142`	`141`	`}`
`143`	`142`	`}`
	`143`	`+#endif`
`144`	`144`
	`145`	`+#ifdef USE_ROCM`
	`146`	`+#define SKIP_SORTED_INDICES 32`
`145`	`147`	`template <typename scalar_t>`
`146`	`148`	`__global__ void indexing_backward_kernel_stride_1(`
`147`	`149`	`const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,`
`@@ -253,7 +255,8 @@ __global__ void indexing_backward_kernel_stride_1(`
`253`	`255`	`}`
`254`	`256`	`}`
`255`	`257`	`}`
`256`		`-#else`
	`258`	`+#endif`
	`259`	`+`
`257`	`260`	`template <typename scalar_t, int SZ>`
`258`	`261`	`__global__ void indexing_backward_kernel(`
`259`	`262`	`const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,`
`@@ -332,6 +335,7 @@ __global__ void indexing_backward_kernel(`
`332`	`335`	`}`
`333`	`336`	`}`
`334`	`337`
	`338`	`+#ifndef USE_ROCM`
`335`	`339`	`template <typename scalar_t>`
`336`	`340`	`__global__ void indexing_backward_kernel_stride_1(`
`337`	`341`	`const int64_t* sorted_indices, const int64_t* indices, const scalar_t* grad_output, scalar_t* grad_weight,`
`@@ -790,7 +794,7 @@ void index_put_with_sort_kernel(Tensor & self, const c10::List<std::optional<Ten`
`790`	`794`	`expandedValue.scalar_type(),`
`791`	`795`	`"indexing_backward",`
`792`	`796`	`AT_WRAP([&] {`
`793`		`- indexing_backward_kernel<scalar_t, UNROLL><<<KERNEL_GRID, block, KERNEL_SMEM, stream>>>(`
	`797`	`+ indexing_backward_kernel<scalar_t, UNROLL><<<grid, block, 0, stream>>>(`
`794`	`798`	`sorted_indices.const_data_ptr<int64_t>(),`
`795`	`799`	`orig_indices.const_data_ptr<int64_t>(),`
`796`	`800`	`expandedValue.const_data_ptr<scalar_t>(),`