try to fix clang compilation errors

xctan · xctan · commit 097f2531a64e · 2025-05-30T00:38:25.000+08:00
diff --git a/ggml/src/ggml-cpu/quants.c b/ggml/src/ggml-cpu/quants.c
@@ -35,15 +35,15 @@ void quantize_row_q5_1(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, in
     quantize_row_q5_1_ref(x, y, k);
 }
 
-GGML_CPU_NATIVE_IMPL(quantize_row_q8_0)
 void quantize_row_q8_0_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k) {
     quantize_row_q8_0_ref(x, y, k);
 }
+GGML_CPU_NATIVE_IMPL(quantize_row_q8_0)
 
-GGML_CPU_NATIVE_IMPL(quantize_row_q8_1)
 void quantize_row_q8_1_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k) {
     quantize_row_q8_1_ref(x, y, k);
 }
+GGML_CPU_NATIVE_IMPL(quantize_row_q8_1)
 
 //
 // 2-6 bit quantization in super-blocks
@@ -113,7 +113,6 @@ void quantize_row_q8_K(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, in
 
 //===================================== Dot products =================================
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_0_q8_0)
 void ggml_vec_dot_q4_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -149,9 +148,9 @@ void ggml_vec_dot_q4_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_0_q8_0)
 
 // TODO: add WASM SIMD
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_1_q8_1)
 void ggml_vec_dot_q4_1_q8_1_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_1;
     const int nb = n / qk;
@@ -187,8 +186,8 @@ void ggml_vec_dot_q4_1_q8_1_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_1_q8_1)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_0_q8_0)
 void ggml_vec_dot_q5_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -231,8 +230,8 @@ void ggml_vec_dot_q5_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_0_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_1_q8_1)
 void ggml_vec_dot_q5_1_q8_1_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_1;
     const int nb = n / qk;
@@ -275,8 +274,8 @@ void ggml_vec_dot_q5_1_q8_1_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_1_q8_1)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q8_0_q8_0)
 void ggml_vec_dot_q8_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -306,8 +305,8 @@ void ggml_vec_dot_q8_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q8_0_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_tq1_0_q8_K)
 void ggml_vec_dot_tq1_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(nrc == 1);
     UNUSED(nrc);
@@ -359,8 +358,8 @@ void ggml_vec_dot_tq1_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_tq1_0_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_tq2_0_q8_K)
 void ggml_vec_dot_tq2_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(nrc == 1);
     UNUSED(nrc);
@@ -392,8 +391,8 @@ void ggml_vec_dot_tq2_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_tq2_0_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q2_K_q8_K)
 void ggml_vec_dot_q2_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(nrc == 1);
     UNUSED(nrc);
@@ -445,8 +444,8 @@ void ggml_vec_dot_q2_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, c
     }
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q2_K_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q3_K_q8_K)
 void ggml_vec_dot_q3_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -525,8 +524,8 @@ void ggml_vec_dot_q3_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, c
     for (int l = 0; l < 8; ++l) sumf += sums[l];
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q3_K_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_K_q8_K)
 void ggml_vec_dot_q4_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -601,8 +600,8 @@ void ggml_vec_dot_q4_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, c
     for (int l = 0; l < 8; ++l) sumf += sums[l];
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q4_K_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_K_q8_K)
 void ggml_vec_dot_q5_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy,  size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -682,8 +681,8 @@ void ggml_vec_dot_q5_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, c
     for (int l = 0; l < 8; ++l) sumf += sums[l];
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q5_K_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q6_K_q8_K)
 void ggml_vec_dot_q6_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -738,8 +737,8 @@ void ggml_vec_dot_q6_K_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, c
     for (int l = 0; l < 8; ++l) sumf += sums[l];
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_q6_K_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_xxs_q8_K)
 void ggml_vec_dot_iq2_xxs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -781,8 +780,8 @@ void ggml_vec_dot_iq2_xxs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs
     }
     *s = 0.125f * sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_xxs_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_xs_q8_K)
 void ggml_vec_dot_iq2_xs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -832,8 +831,8 @@ void ggml_vec_dot_iq2_xs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
     }
     *s = 0.125f * sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_xs_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_s_q8_K)
 void ggml_vec_dot_iq2_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -885,8 +884,8 @@ void ggml_vec_dot_iq2_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
 
     *s = 0.125f * sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq2_s_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq3_xxs_q8_K)
 void ggml_vec_dot_iq3_xxs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -930,8 +929,8 @@ void ggml_vec_dot_iq3_xxs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs
     }
     *s = 0.25f * sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq3_xxs_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq3_s_q8_K)
 void ggml_vec_dot_iq3_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -987,8 +986,8 @@ void ggml_vec_dot_iq3_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
     }
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq3_s_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq1_s_q8_K)
 void ggml_vec_dot_iq1_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -1031,8 +1030,8 @@ void ggml_vec_dot_iq1_s_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq1_s_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq1_m_q8_K)
 void ggml_vec_dot_iq1_m_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(n % QK_K == 0);
     assert(nrc == 1);
@@ -1093,8 +1092,8 @@ void ggml_vec_dot_iq1_m_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
 
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq1_m_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq4_nl_q8_0)
 void ggml_vec_dot_iq4_nl_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(nrc == 1);
     UNUSED(nrc);
@@ -1123,8 +1122,8 @@ void ggml_vec_dot_iq4_nl_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
     }
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq4_nl_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq4_xs_q8_K)
 void ggml_vec_dot_iq4_xs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     assert(nrc == 1);
     UNUSED(nrc);
@@ -1170,6 +1169,7 @@ void ggml_vec_dot_iq4_xs_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
     }
     *s = sumf;
 }
+GGML_CPU_NATIVE_IMPL(ggml_vec_dot_iq4_xs_q8_K)
 
 // ============================ 4-bit non-linear quants
 
diff --git a/ggml/src/ggml-cpu/repack.cpp b/ggml/src/ggml-cpu/repack.cpp
@@ -48,7 +48,6 @@ static const int8_t kvalues_iq4nl[16] = {-127, -104, -83, -65, -49, -35, -22, -1
 
 extern "C" {
 
-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x4)
 void ggml_quantize_mat_q8_0_4x4_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {
     assert(QK8_0 == 32);
     assert(k % QK8_0 == 0);
@@ -86,8 +85,8 @@ void ggml_quantize_mat_q8_0_4x4_generic(const float * GGML_RESTRICT x, void * GG
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x4)
 
-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x8)
 void ggml_quantize_mat_q8_0_4x8_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {
     assert(QK8_0 == 32);
     assert(k % QK8_0 == 0);
@@ -125,8 +124,8 @@ void ggml_quantize_mat_q8_0_4x8_generic(const float * GGML_RESTRICT x, void * GG
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x8)
 
-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_K_4x8)
 void ggml_quantize_mat_q8_K_4x8_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {
     assert(QK_K == 256);
     assert(k % QK_K == 0);
@@ -177,6 +176,7 @@ void ggml_quantize_mat_q8_K_4x8_generic(const float * GGML_RESTRICT x, void * GG
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_K_4x8)
 
 } // extern "C"
 
@@ -203,7 +203,6 @@ template <> void ggml_quantize_mat_t<8, GGML_TYPE_Q8_K>(const float * GGML_RESTR
 
 extern "C" {
 
-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x4_q8_0)
 void ggml_gemv_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -247,8 +246,8 @@ void ggml_gemv_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         for (int j = 0; j < ncols_interleaved; j++) s[x * ncols_interleaved + j] = sumf[j];
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x4_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x8_q8_0)
 void ggml_gemv_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -292,8 +291,8 @@ void ggml_gemv_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         for (int j = 0; j < ncols_interleaved; j++) s[x * ncols_interleaved + j] = sumf[j];
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x8_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_8x8_q8_0)
 void ggml_gemv_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -339,8 +338,8 @@ void ggml_gemv_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_8x8_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_K_8x8_q8_K)
 void ggml_gemv_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK_K;
     const int nb = n / qk;
@@ -418,8 +417,8 @@ void ggml_gemv_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_K_8x8_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemv_iq4_nl_4x4_q8_0)
 void ggml_gemv_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -465,8 +464,8 @@ void ggml_gemv_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemv_iq4_nl_4x4_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x4_q8_0)
 void ggml_gemm_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -522,8 +521,8 @@ void ggml_gemm_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x4_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x8_q8_0)
 void ggml_gemm_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -577,8 +576,8 @@ void ggml_gemm_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x8_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_8x8_q8_0)
 void ggml_gemm_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -632,8 +631,8 @@ void ggml_gemm_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_8x8_q8_0)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_K_8x8_q8_K)
 void ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK_K;
     const int nb = n / qk;
@@ -722,8 +721,8 @@ void ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_K_8x8_q8_K)
 
-GGML_CPU_NATIVE_IMPL(ggml_gemm_iq4_nl_4x4_q8_0)
 void ggml_gemm_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {
     const int qk = QK8_0;
     const int nb = n / qk;
@@ -779,6 +778,7 @@ void ggml_gemm_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs
         }
     }
 }
+GGML_CPU_NATIVE_IMPL(ggml_gemm_iq4_nl_4x4_q8_0)
 
 } // extern "C"
 

Original file line number	Diff line number	Diff line change
`@@ -48,7 +48,6 @@ static const int8_t kvalues_iq4nl[16] = {-127, -104, -83, -65, -49, -35, -22, -1`
`48`	`48`
`49`	`49`	`extern "C" {`
`50`	`50`
`51`		`-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x4)`
`52`	`51`	`void ggml_quantize_mat_q8_0_4x4_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {`
`53`	`52`	`assert(QK8_0 == 32);`
`54`	`53`	`assert(k % QK8_0 == 0);`
`@@ -86,8 +85,8 @@ void ggml_quantize_mat_q8_0_4x4_generic(const float * GGML_RESTRICT x, void * GG`
`86`	`85`	`}`
`87`	`86`	`}`
`88`	`87`	`}`
	`88`	`+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x4)`
`89`	`89`
`90`		`-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x8)`
`91`	`90`	`void ggml_quantize_mat_q8_0_4x8_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {`
`92`	`91`	`assert(QK8_0 == 32);`
`93`	`92`	`assert(k % QK8_0 == 0);`
`@@ -125,8 +124,8 @@ void ggml_quantize_mat_q8_0_4x8_generic(const float * GGML_RESTRICT x, void * GG`
`125`	`124`	`}`
`126`	`125`	`}`
`127`	`126`	`}`
	`127`	`+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_0_4x8)`
`128`	`128`
`129`		`-GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_K_4x8)`
`130`	`129`	`void ggml_quantize_mat_q8_K_4x8_generic(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {`
`131`	`130`	`assert(QK_K == 256);`
`132`	`131`	`assert(k % QK_K == 0);`
`@@ -177,6 +176,7 @@ void ggml_quantize_mat_q8_K_4x8_generic(const float * GGML_RESTRICT x, void * GG`
`177`	`176`	`}`
`178`	`177`	`}`
`179`	`178`	`}`
	`179`	`+GGML_CPU_NATIVE_IMPL(ggml_quantize_mat_q8_K_4x8)`
`180`	`180`
`181`	`181`	`} // extern "C"`
`182`	`182`
`@@ -203,7 +203,6 @@ template <> void ggml_quantize_mat_t<8, GGML_TYPE_Q8_K>(const float * GGML_RESTR`
`203`	`203`
`204`	`204`	`extern "C" {`
`205`	`205`
`206`		`-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x4_q8_0)`
`207`	`206`	`void ggml_gemv_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`208`	`207`	`const int qk = QK8_0;`
`209`	`208`	`const int nb = n / qk;`
`@@ -247,8 +246,8 @@ void ggml_gemv_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`247`	`246`	`for (int j = 0; j < ncols_interleaved; j++) s[x * ncols_interleaved + j] = sumf[j];`
`248`	`247`	`}`
`249`	`248`	`}`
	`249`	`+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x4_q8_0)`
`250`	`250`
`251`		`-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x8_q8_0)`
`252`	`251`	`void ggml_gemv_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`253`	`252`	`const int qk = QK8_0;`
`254`	`253`	`const int nb = n / qk;`
`@@ -292,8 +291,8 @@ void ggml_gemv_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`292`	`291`	`for (int j = 0; j < ncols_interleaved; j++) s[x * ncols_interleaved + j] = sumf[j];`
`293`	`292`	`}`
`294`	`293`	`}`
	`294`	`+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_4x8_q8_0)`
`295`	`295`
`296`		`-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_8x8_q8_0)`
`297`	`296`	`void ggml_gemv_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`298`	`297`	`const int qk = QK8_0;`
`299`	`298`	`const int nb = n / qk;`
`@@ -339,8 +338,8 @@ void ggml_gemv_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`339`	`338`	`}`
`340`	`339`	`}`
`341`	`340`	`}`
	`341`	`+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_0_8x8_q8_0)`
`342`	`342`
`343`		`-GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_K_8x8_q8_K)`
`344`	`343`	`void ggml_gemv_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`345`	`344`	`const int qk = QK_K;`
`346`	`345`	`const int nb = n / qk;`
`@@ -418,8 +417,8 @@ void ggml_gemv_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`418`	`417`	`}`
`419`	`418`	`}`
`420`	`419`	`}`
	`420`	`+GGML_CPU_NATIVE_IMPL(ggml_gemv_q4_K_8x8_q8_K)`
`421`	`421`
`422`		`-GGML_CPU_NATIVE_IMPL(ggml_gemv_iq4_nl_4x4_q8_0)`
`423`	`422`	`void ggml_gemv_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`424`	`423`	`const int qk = QK8_0;`
`425`	`424`	`const int nb = n / qk;`
`@@ -465,8 +464,8 @@ void ggml_gemv_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs`
`465`	`464`	`}`
`466`	`465`	`}`
`467`	`466`	`}`
	`467`	`+GGML_CPU_NATIVE_IMPL(ggml_gemv_iq4_nl_4x4_q8_0)`
`468`	`468`
`469`		`-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x4_q8_0)`
`470`	`469`	`void ggml_gemm_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`471`	`470`	`const int qk = QK8_0;`
`472`	`471`	`const int nb = n / qk;`
`@@ -522,8 +521,8 @@ void ggml_gemm_q4_0_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`522`	`521`	`}`
`523`	`522`	`}`
`524`	`523`	`}`
	`524`	`+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x4_q8_0)`
`525`	`525`
`526`		`-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x8_q8_0)`
`527`	`526`	`void ggml_gemm_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`528`	`527`	`const int qk = QK8_0;`
`529`	`528`	`const int nb = n / qk;`
`@@ -577,8 +576,8 @@ void ggml_gemm_q4_0_4x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`577`	`576`	`}`
`578`	`577`	`}`
`579`	`578`	`}`
	`579`	`+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_4x8_q8_0)`
`580`	`580`
`581`		`-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_8x8_q8_0)`
`582`	`581`	`void ggml_gemm_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`583`	`582`	`const int qk = QK8_0;`
`584`	`583`	`const int nb = n / qk;`
`@@ -632,8 +631,8 @@ void ggml_gemm_q4_0_8x8_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`632`	`631`	`}`
`633`	`632`	`}`
`634`	`633`	`}`
	`634`	`+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_0_8x8_q8_0)`
`635`	`635`
`636`		`-GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_K_8x8_q8_K)`
`637`	`636`	`void ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`638`	`637`	`const int qk = QK_K;`
`639`	`638`	`const int nb = n / qk;`
`@@ -722,8 +721,8 @@ void ggml_gemm_q4_K_8x8_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs,`
`722`	`721`	`}`
`723`	`722`	`}`
`724`	`723`	`}`
	`724`	`+GGML_CPU_NATIVE_IMPL(ggml_gemm_q4_K_8x8_q8_K)`
`725`	`725`
`726`		`-GGML_CPU_NATIVE_IMPL(ggml_gemm_iq4_nl_4x4_q8_0)`
`727`	`726`	`void ggml_gemm_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, const void * GGML_RESTRICT vy, int nr, int nc) {`
`728`	`727`	`const int qk = QK8_0;`
`729`	`728`	`const int nb = n / qk;`
`@@ -779,6 +778,7 @@ void ggml_gemm_iq4_nl_4x4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs`
`779`	`778`	`}`
`780`	`779`	`}`
`781`	`780`	`}`
	`781`	`+GGML_CPU_NATIVE_IMPL(ggml_gemm_iq4_nl_4x4_q8_0)`
`782`	`782`
`783`	`783`	`} // extern "C"`
`784`	`784`