Address review comments

yeahdongcn · yeahdongcn · commit f7886ec2542f · 2025-03-28T21:16:32.000+08:00
Signed-off-by: Xiaodong Ye &lt;xiaodong.ye@mthreads.com&gt;
diff --git a/ggml/src/ggml-cuda/fattn-common.cuh b/ggml/src/ggml-cuda/fattn-common.cuh
@@ -315,14 +315,14 @@ static __device__ __forceinline__ void quantize_q8_1_to_shared(
 
     float vals[sizeof(int)] = {0.0f};
 #pragma unroll
-    for (size_t l = 0; l < sizeof(int); ++l) {
+    for (int l = 0; l < int(sizeof(int)); ++l) {
         vals[l] = scale * x[4*threadIdx.x + l];
     }
 
     float amax = fabsf(vals[0]);
     float sum  = vals[0];
 #pragma unroll
-    for (size_t l = 1; l < sizeof(int); ++l) {
+    for (int l = 1; l < int(sizeof(int)); ++l) {
         amax = fmaxf(amax, fabsf(vals[l]));
         sum += vals[l];
     }
@@ -338,7 +338,7 @@ static __device__ __forceinline__ void quantize_q8_1_to_shared(
 
     if (d != 0.0f) {
 #pragma unroll
-        for (size_t l = 0; l < sizeof(int); ++l) {
+        for (int l = 0; l < int(sizeof(int)); ++l) {
             q8[l] = roundf(vals[l] / d);
         }
     }
@@ -638,9 +638,9 @@ static __global__ void flash_attn_combine_results(
     float VKQ_denominator = 0.0f;
     for (int l = 0; l < parallel_blocks; ++l) {
         const float diff = meta[l].x - kqmax;
-        const float KQ_max_scale = expf(diff);
+        float KQ_max_scale = expf(diff);
         const uint32_t ftz_mask = 0xFFFFFFFF * (diff > SOFTMAX_FTZ_THRESHOLD);
-        *((uint32_t *) const_cast<float *>(&KQ_max_scale)) &= ftz_mask;
+        *((uint32_t *) &KQ_max_scale) &= ftz_mask;
 
         VKQ_numerator   += KQ_max_scale * VKQ_parts[l*gridDim.z*D + blockIdx.z*D + tid];
         VKQ_denominator += KQ_max_scale * meta[l].y;
diff --git a/ggml/src/ggml-cuda/mmq.cuh b/ggml/src/ggml-cuda/mmq.cuh
@@ -1253,7 +1253,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin
         const float d = bxi->d;
 
 #pragma unroll
-        for (size_t l = 0; l < sizeof(int); ++l) {
+        for (int l = 0; l < int(sizeof(int)); ++l) {
             x_df[i*MMQ_MMA_TILE_X_K_Q3_K + sizeof(int)*(threadIdx.x % (WARP_SIZE/8)) + l] = d*sc8[l];
         }
 #else
@@ -1376,7 +1376,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin
         const half2 dm = bxi->dm * make_half2(1.0f, -1.0f);
 
 #pragma unroll
-        for (size_t l = 0; l < sizeof(int); ++l) {
+        for (int l = 0; l < int(sizeof(int)); ++l) {
             x_dm[i*MMQ_MMA_TILE_X_K_Q8_1 + sizeof(int)*ksc + l] = dm*make_half2(sc8[l], m8[l]);
         }
     }
@@ -1517,7 +1517,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin
         const half2 dm = bxi->dm * make_half2(1.0f, -1.0f);
 
 #pragma unroll
-        for (size_t l = 0; l < sizeof(int); ++l) {
+        for (int l = 0; l < int(sizeof(int)); ++l) {
             x_dm[i*MMQ_MMA_TILE_X_K_Q8_1 + sizeof(int)*ksc + l] = dm*make_half2(sc8[l], m8[l]);
         }
     }

Original file line number	Diff line number	Diff line change
`@@ -1253,7 +1253,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin`
`1253`	`1253`	`const float d = bxi->d;`
`1254`	`1254`
`1255`	`1255`	`#pragma unroll`
`1256`		`- for (size_t l = 0; l < sizeof(int); ++l) {`
	`1256`	`+ for (int l = 0; l < int(sizeof(int)); ++l) {`
`1257`	`1257`	`x_df[iMMQ_MMA_TILE_X_K_Q3_K + sizeof(int)(threadIdx.x % (WARP_SIZE/8)) + l] = d*sc8[l];`
`1258`	`1258`	`}`
`1259`	`1259`	`#else`
`@@ -1376,7 +1376,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin`
`1376`	`1376`	`const half2 dm = bxi->dm * make_half2(1.0f, -1.0f);`
`1377`	`1377`
`1378`	`1378`	`#pragma unroll`
`1379`		`- for (size_t l = 0; l < sizeof(int); ++l) {`
	`1379`	`+ for (int l = 0; l < int(sizeof(int)); ++l) {`
`1380`	`1380`	`x_dm[iMMQ_MMA_TILE_X_K_Q8_1 + sizeof(int)ksc + l] = dm*make_half2(sc8[l], m8[l]);`
`1381`	`1381`	`}`
`1382`	`1382`	`}`
`@@ -1517,7 +1517,7 @@ template <int mmq_y, int nwarps, bool need_check> static __device__ __forceinlin`
`1517`	`1517`	`const half2 dm = bxi->dm * make_half2(1.0f, -1.0f);`
`1518`	`1518`
`1519`	`1519`	`#pragma unroll`
`1520`		`- for (size_t l = 0; l < sizeof(int); ++l) {`
	`1520`	`+ for (int l = 0; l < int(sizeof(int)); ++l) {`
`1521`	`1521`	`x_dm[iMMQ_MMA_TILE_X_K_Q8_1 + sizeof(int)ksc + l] = dm*make_half2(sc8[l], m8[l]);`
`1522`	`1522`	`}`
`1523`	`1523`	`}`