@@ -235,24 +235,15 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
235235 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_0, GGML_TYPE_F16)
236236 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_F16)
237237 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_F16)
238- FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_F16)
238+ // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_F16)
239239 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
240240 // FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
241241
242242 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
243243
244-
245244 // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
246245 // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
247246
248- // FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_IQ4_NL)
249- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
250-
251- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_IQ4_NL)
252- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_Q5_0)
253- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_Q6_0)
254- // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_Q6_0)
255- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q6_0)
256247#else
257248 FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q4_0, GGML_TYPE_Q4_0)
258249
@@ -262,7 +253,6 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
262253 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
263254 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
264255
265-
266256 // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
267257 // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
268258 // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -369,7 +359,7 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
369359 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_0, GGML_TYPE_F16)
370360 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_F16)
371361 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q6_0, GGML_TYPE_F16)
372- FATTN_VEC_F32_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_F16)
362+ // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_F16)
373363 FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
374364 // FATTN_VEC_F32_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
375365
0 commit comments