[None][feat] Fix attention sink load in xqa (#8836)

qsang-nv · web-flow · commit 0f42a24f459c · 2025-11-03T09:39:45.000+08:00
Signed-off-by: Qidi Sang &lt;200703406+qsang-nv@users.noreply.github.com&gt;
diff --git a/cpp/kernels/xqa/mha_sm90.cu b/cpp/kernels/xqa/mha_sm90.cu
@@ -2078,9 +2078,13 @@ __device__ inline RegColWiseVec loadGmemColWiseVecWithDup(ShmQWiseVec const& gme
     for (uint32_t i = 0; i < exactDiv(ShmQWiseVec::size, gmma::instNBase); i++)
     {
         static_assert(nbThrdsPerInstNBase * RegColWiseVec::size == exactDiv(ShmQWiseVec::size, GmmaAccCoreMat::cols));
-        ret[i] = reinterpret_cast<
-            Vec<Vec<float, GmmaAccCoreMat::cols>, exactDiv(ShmQWiseVec::size, GmmaAccCoreMat::cols)> const&>(
-            gmemVec)[mha::min(i * nbThrdsPerInstNBase + idx, bound)];
+        uint32_t const clampedIdx = mha::min(i * nbThrdsPerInstNBase + idx, bound);
+        uint32_t const baseOffset = clampedIdx * GmmaAccCoreMat::cols;
+#pragma unroll
+        for (uint32_t j = 0; j < GmmaAccCoreMat::cols; j++)
+        {
+            ret[i][j] = gmemVec[baseOffset + j];
+        }
     }
     return ret;
 }

Original file line number	Diff line number	Diff line change
`@@ -2078,9 +2078,13 @@ __device__ inline RegColWiseVec loadGmemColWiseVecWithDup(ShmQWiseVec const& gme`
`2078`	`2078`	`for (uint32_t i = 0; i < exactDiv(ShmQWiseVec::size, gmma::instNBase); i++)`
`2079`	`2079`	`{`
`2080`	`2080`	`static_assert(nbThrdsPerInstNBase * RegColWiseVec::size == exactDiv(ShmQWiseVec::size, GmmaAccCoreMat::cols));`
`2081`		`- ret[i] = reinterpret_cast<`
`2082`		`- Vec<Vec<float, GmmaAccCoreMat::cols>, exactDiv(ShmQWiseVec::size, GmmaAccCoreMat::cols)> const&>(`
`2083`		`- gmemVec)[mha::min(i * nbThrdsPerInstNBase + idx, bound)];`
	`2081`	`+ uint32_t const clampedIdx = mha::min(i * nbThrdsPerInstNBase + idx, bound);`
	`2082`	`+ uint32_t const baseOffset = clampedIdx * GmmaAccCoreMat::cols;`
	`2083`	`+#pragma unroll`
	`2084`	`+ for (uint32_t j = 0; j < GmmaAccCoreMat::cols; j++)`
	`2085`	`+ {`
	`2086`	`+ ret[i][j] = gmemVec[baseOffset + j];`
	`2087`	`+ }`
`2084`	`2088`	`}`
`2085`	`2089`	`return ret;`
`2086`	`2090`	`}`