Nexesenex
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 9 additions & 8 deletions b/‎ggml/include/ggml.h‎
Lines changed: 9 additions & 8 deletions
diff --git a/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 6 additions & 6 deletions b/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 3 additions & 3 deletions b/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎ggml/src/ggml-cuda/convert.cu‎
Lines changed: 0 additions & 33 deletions b/‎ggml/src/ggml-cuda/convert.cu‎
Lines changed: 0 additions & 33 deletions
diff --git a/‎ggml/src/ggml-cuda/dmmv.cu‎
Lines changed: 0 additions & 26 deletions b/‎ggml/src/ggml-cuda/dmmv.cu‎
Lines changed: 0 additions & 26 deletions
diff --git a/‎ggml/src/ggml-quants_ik.c‎ ‎ggml/src/ggml-quants_ik.c_‎ggml/src/ggml-quants_ik.c renamed to ggml/src/ggml-quants_ik.c_ b/‎ggml/src/ggml-quants_ik.c‎ ‎ggml/src/ggml-quants_ik.c_‎ggml/src/ggml-quants_ik.c renamed to ggml/src/ggml-quants_ik.c_
@@ -421,6 +421,10 @@ extern "C" {
         GGML_TYPE_Q8_K128 = 150,
         GGML_TYPE_Q8_KV   = 151,
         GGML_TYPE_IQ5_KS  = 152,
+        GGML_TYPE_IQ2_KT  = 153,
+        GGML_TYPE_IQ3_KT  = 154,
+        GGML_TYPE_IQ4_KT  = 155,
+
         GGML_TYPE_IQ3_KS  = 195,
 
         GGML_TYPE_Q4_0_R8   = 202,
@@ -452,10 +456,6 @@ extern "C" {
         GGML_TYPE_Q8_KV_R8  = 398,
         GGML_TYPE_Q8_K_R8   = 399,
 
-        GGML_TYPE_IQ2_KT    = 947,
-        GGML_TYPE_IQ3_KT    = 948,
-        GGML_TYPE_IQ4_KT    = 949,
-
         GGML_TYPE_COUNT,
     };
 
@@ -510,7 +510,11 @@ extern "C" {
         GGML_FTYPE_MOSTLY_IQ4_KSS = 139, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q8_KV   = 140, // except 1d tensors
         GGML_FTYPE_MOSTLY_IQ5_KS  = 141, // except 1d tensors
-        GGML_FTYPE_MOSTLY_IQ3_KS  = 188, // except 1d tensors
+        GGML_FTYPE_MOSTLY_IQ2_KT  = 142, // except 1d tensors
+        GGML_FTYPE_MOSTLY_IQ3_KT  = 143, // except 1d tensors
+        GGML_FTYPE_MOSTLY_IQ4_KT  = 144, // except 1d tensors
+
+        GGML_FTYPE_MOSTLY_IQ3_KS  = 185, // except 1d tensors
                                          //
         GGML_FTYPE_MOSTLY_Q4_0_R8   = 202, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q8_0_R8   = 207, // except 1d tensors
@@ -541,9 +545,6 @@ extern "C" {
         GGML_FTYPE_MOSTLY_Q8_KV_R8  = 398, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q8_K_R8   = 399, // except 1d tensors
 
-        GGML_FTYPE_MOSTLY_IQ2_KT    = 947, // except 1d tensors
-        GGML_FTYPE_MOSTLY_IQ3_KT    = 948, // except 1d tensors
-        GGML_FTYPE_MOSTLY_IQ4_KT    = 949, // except 1d tensors
     };
 
     // available tensor operations:
 
@@ -706,20 +706,20 @@ static const struct ggml_type_traits_cpu type_traits_cpu[GGML_TYPE_COUNT] = {
         .nrows                    = 1,
     },
     [GGML_TYPE_IQ2_KT] = {
-        // .from_float               = quantize_row_iq2_kt,
-        // .vec_dot                  = vec_dot_iq2_kt_q8_k,
+        .from_float               = quantize_row_iq2_kt,
+        .vec_dot                  = vec_dot_iq2_kt_q8_k,
         .vec_dot_type             = GGML_TYPE_Q8_K,
         .nrows                    = 1,
     },
     [GGML_TYPE_IQ3_KT] = {
-        // .from_float               = quantize_row_iq3_kt,
-        // .vec_dot                  = vec_dot_iq3_kt_q8_k,
+        .from_float               = quantize_row_iq3_kt,
+        .vec_dot                  = vec_dot_iq3_kt_q8_k,
         .vec_dot_type             = GGML_TYPE_Q8_K,
         .nrows                    = 1,
     },
     [GGML_TYPE_IQ4_KT] = {
-        // .from_float               = quantize_row_iq4_kt,
-        // .vec_dot                  = vec_dot_iq4_kt_q8_k,
+        .from_float               = quantize_row_iq4_kt,
+        .vec_dot                  = vec_dot_iq4_kt_q8_k,
         .vec_dot_type             = GGML_TYPE_Q8_K,
         .nrows                    = 1,
     },
 
@@ -1340,6 +1340,9 @@ void ggml_compute_forward_add(
         case GGML_TYPE_Q8_K_R8:
         case GGML_TYPE_Q8_KV:
         case GGML_TYPE_BF16_R16:
+        case GGML_TYPE_IQ2_KT:
+        case GGML_TYPE_IQ3_KT:
+        case GGML_TYPE_IQ4_KT:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -1359,9 +1362,6 @@ void ggml_compute_forward_add(
             {
                 ggml_compute_forward_add_q_f32(params, dst);
             } break;
-        case GGML_TYPE_IQ2_KT:
-        case GGML_TYPE_IQ3_KT:
-        case GGML_TYPE_IQ4_KT: break;
         default:
             {
                 GGML_ABORT("fatal error");
 
@@ -366,11 +366,6 @@ float __device__ __forceinline__ trellis_next(uint32_t& val) {
     const half * h = (const half *)&s;
     val = ka*val + kb;
     s = (val & kmask) ^ km32;
-    //float r = (float)(h[0] +h[1]);
-    //val = ka*val + kb;
-    //s = (val & kmask) ^ km32;
-    //r += (float)(h[0]+h[1]);
-    //return r;
     return (float)(h[0]+h[1]);
 }
 
@@ -417,34 +412,6 @@ static __global__ void dequantize_block_iq3_kt(const void * __restrict__ vx, dst
     }
 }
 
-//template<typename dst_t>
-
-//static __global__ void dequantize_block_iq3_kt(const void * __restrict__ vx, dst_t * __restrict__ yy, const int64_t nrows, const int64_t n_per_row) { next
-
-//static __global__ void dequantize_block_iq3_kt(const void * __restrict__ vx, dst_t * __restrict__ yy, int64_t n_per_row, int64_t row_size) { orig
-
-//
-//    int64_t ii  = blockIdx.x;
-//    int64_t row = (QK_K * ii) / n_per_row;
-//    const float * dptr = (const float *)((const char *)vx + row * row_size);
-//    float scale = dptr[0];
-//    float alpha = dptr[1];
-//    const block_iq3_kt * x = (const block_iq3_kt *)(dptr + 2);
-//    const int64_t i = ii - (row*n_per_row)/QK_K;
-//
-//    const int64_t tid = threadIdx.x;
-//    const int64_t ib = tid; // 0...31
-//    dst_t * y = yy + ii*QK_K + 8*ib;
-//    const uint16_t * ql = (const uint16_t *)x[i].ql;
-//    uint32_t idx = ql[ib] + 4096;
-//    const float dl = scale * ((x[i].scales[(ib/4)%4] >> 4*(ib/16)) & 0xf) * 31.75f * 1.01f; //1.015f;
-//    uint8_t mask = 1 << (ib/4);
-//    for (int j = 0; j < 8; ++j) {
-//        float ay = std::abs(trellis_next(idx));
-//        y[j] = dl * ay/(1 - alpha*ay) * (x[i].qh[(8*ib+j)%32] & mask ? -1.f : 1.f);
-//    }
-//}
-
 template<typename dst_t>
 static __global__ void dequantize_block_iq4_kt(const void * __restrict__ vx, dst_t * __restrict__ yy, int64_t n_per_row, int64_t row_size) {
 
 
@@ -41,30 +41,6 @@ static __device__ __forceinline__ void trellis_accum(uint32_t& val1, uint32_t& v
 #endif
 }
 
-//static __device__ __forceinline__ void trellis_accum(uint32_t& val1, uint32_t& val2, uint32_t* s, const dfloat2* y, dfloat2& bdot1, dfloat2& bdot2) {
-//    const half * h = (const half *)s;
-//    s[0] = trellis_next(val1);
-//    s[1] = trellis_next(val1);
-//    s[2] = trellis_next(val1);
-//    s[3] = trellis_next(val1);
-//#ifdef GGML_CUDA_F16
-//    bdot1 = __hfma2(y[ 0], {h[0]+h[1]+h[2]+h[3], h[4]+h[5]+h[6]+h[7]}, bdot1);
-//#else
-//    bdot1.x += y[ 0].x * (float)(h[0] + h[1] + h[2] + h[3]);
-//    bdot1.y += y[ 0].y * (float)(h[4] + h[5] + h[6] + h[7]);
-//#endif
-//    s[0] = trellis_next(val2);
-//    s[1] = trellis_next(val2);
-//    s[2] = trellis_next(val2);
-//    s[3] = trellis_next(val2);
-//#ifdef GGML_CUDA_F16
-//    bdot2 = __hfma2(y[64], {h[0]+h[1]+h[2]+h[3], h[4]+h[5]+h[6]+h[7]}, bdot2);
-//#else
-//    bdot2.x += y[64].x * (float)(h[0] + h[1] + h[2] + h[3]);
-//    bdot2.y += y[64].y * (float)(h[4] + h[5] + h[6] + h[7]);
-//#endif
-//}
-
 static __device__ __forceinline__ void trellis_accum_abs(uint8_t signs1, uint8_t signs2, uint8_t mask1, uint8_t mask2,
         uint32_t& val1, uint32_t& val2, uint32_t* s, const dfloat2* y, dfloat2& bdot1, dfloat2& bdot2) {
     const half * h = (const half *)s;
@@ -77,8 +53,6 @@ static __device__ __forceinline__ void trellis_accum_abs(uint8_t signs1, uint8_t
     half h10 = __habs(h[4]+h[5]), h11 = __habs(h[6]+h[7]);
     half2 h1 = {signs1 & mask1 ? -h00 : h00, signs2 & mask1 ? -h01 : h01};
     half2 h2 = {signs1 & mask2 ? -h10 : h10, signs2 & mask2 ? -h11 : h11};
-    //half2 h1 = __hmul2(__habs2({h[0]+h[1], h[2]+h[3]}), {signs1 & mask1 ? -1 : 1, signs2 & mask1 ? -1 : 1});
-    //half2 h2 = __hmul2(__habs2({h[4]+h[5], h[6]+h[7]}), {signs1 & mask2 ? -1 : 1, signs2 & mask2 ? -1 : 1});
     bdot1 = __hfma2(y[ 0], h1, bdot1);
     bdot2 = __hfma2(y[64], h2, bdot2);
 #else