Nexesenex
diff --git a/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 26 additions & 26 deletions b/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 26 additions & 26 deletions
diff --git a/‎ggml/src/ggml-cuda/common.cuh‎
Lines changed: 14 additions & 0 deletions b/‎ggml/src/ggml-cuda/common.cuh‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cuda/convert.cu‎
Lines changed: 15 additions & 15 deletions b/‎ggml/src/ggml-cuda/convert.cu‎
Lines changed: 15 additions & 15 deletions
diff --git a/‎ggml/src/ggml-cuda/iqk_mmvq.cu‎
Lines changed: 6 additions & 4 deletions b/‎ggml/src/ggml-cuda/iqk_mmvq.cu‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎ggml/src/ggml-cuda/mmvq.cu‎
Lines changed: 2 additions & 2 deletions b/‎ggml/src/ggml-cuda/mmvq.cu‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎ggml/src/ggml-quants.c‎
Lines changed: 2 additions & 2 deletions b/‎ggml/src/ggml-quants.c‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎ggml/src/ggml.c‎
Lines changed: 30 additions & 0 deletions b/‎ggml/src/ggml.c‎
Lines changed: 30 additions & 0 deletions
@@ -397,18 +397,18 @@ static const struct ggml_type_traits_cpu type_traits_cpu[GGML_TYPE_COUNT] = {
         .vec_dot_type             = GGML_TYPE_Q8_K,
         .nrows                    = 1,
     },
-    // [GGML_TYPE_IQ1_BN] = {
-        // .from_float               = quantize_row_iq1_bn,
-        // .vec_dot                  = vec_dot_iq1_bn_q8_0,
-        // .vec_dot_type             = GGML_TYPE_IQ1_BN,
-        // .nrows                    = 1,
-    // },
-    // [GGML_TYPE_IQ2_BN] = {
-        // .from_float               = quantize_row_iq2_bn,
-        // .vec_dot                  = vec_dot_iq2_bn_q8_0,
-        // .vec_dot_type             = GGML_TYPE_IQ2_BN,
-        // .nrows                    = 1,
-    // },
+    [GGML_TYPE_IQ1_BN] = {
+        .from_float               = quantize_row_iq1_bn,
+        .vec_dot                  = vec_dot_iq1_bn_q8_K64,
+        .vec_dot_type             = GGML_TYPE_IQ1_BN,
+        .nrows                    = 1,
+    },
+    [GGML_TYPE_IQ2_BN] = {
+        .from_float               = quantize_row_iq2_bn,
+        .vec_dot                  = vec_dot_iq2_bn_q8_K64,
+        .vec_dot_type             = GGML_TYPE_IQ2_BN,
+        .nrows                    = 1,
+    },
     [GGML_TYPE_IQ4_NL] = {
         .from_float               = quantize_row_iq4_nl,
         .vec_dot                  = ggml_vec_dot_iq4_nl_q8_0,
@@ -5254,8 +5254,8 @@ static void ggml_compute_forward_add(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -5645,8 +5645,8 @@ static void ggml_compute_forward_add1(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -5786,8 +5786,8 @@ static void ggml_compute_forward_acc(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -8959,8 +8959,8 @@ static void ggml_compute_forward_out_prod(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -9429,8 +9429,8 @@ static void ggml_compute_forward_set(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -9704,8 +9704,8 @@ static void ggml_compute_forward_get_rows(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
@@ -10306,8 +10306,8 @@ static void ggml_compute_forward_clamp(
         case GGML_TYPE_IQ3_XXS:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ1_M:
-        // case GGML_TYPE_IQ1_BN:
-        // case GGML_TYPE_IQ2_BN:
+        case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ2_BN:
         case GGML_TYPE_IQ4_NL:
         case GGML_TYPE_IQ4_XS:
         case GGML_TYPE_IQ4_KS:
 
@@ -502,6 +502,20 @@ struct ggml_cuda_type_traits<GGML_TYPE_IQ1_M> {
     static constexpr int qi = QI1_M;
 };
 
+template<>
+struct ggml_cuda_type_traits<GGML_TYPE_IQ1_BN> {
+    static constexpr int qk = QK_IQ1BN;
+    static constexpr int qr = QR1_BN;
+    static constexpr int qi = QI1_BN;
+};
+
+template<>
+struct ggml_cuda_type_traits<GGML_TYPE_IQ2_BN> {
+    static constexpr int qk = QK_IQ1BN;
+    static constexpr int qr = QR1_BN;
+    static constexpr int qi = QI1_BN;
+};
+
 template<>
 struct ggml_cuda_type_traits<GGML_TYPE_IQ4_NL> {
     static constexpr int qk = QK4_NL;
 
@@ -1105,21 +1105,21 @@ static void dequantize_row_iq1_m_cuda(const void * vx, dst_t * y, const int64_t
     dequantize_block_iq1_m<<<nb, 32, 0, stream>>>(vx, y);
 }
 
-// template<typename dst_t>
-// static void dequantize_row_iq1_bn_cuda(const void * vx, dst_t * y, const int64_t nrows, const int64_t n_per_row, cudaStream_t stream) {
-    // const int64_t k = nrows * n_per_row;
-    // const int64_t row_size = ggml_row_size(GGML_TYPE_IQ1_BN, n_per_row);
-    // const int nb = (k + 255) / 256;
-    // dequantize_block_iq1_bn<<<nb, 32, 0, stream>>>(vx, y, n_per_row, row_size, nrows);
-// }
-
-// template<typename dst_t>
-// static void dequantize_row_iq2_bn_cuda(const void * vx, dst_t * y, const int64_t nrows, const int64_t n_per_row, cudaStream_t stream) {
-    // const int64_t k = nrows * n_per_row;
-    // const int64_t row_size = ggml_row_size(GGML_TYPE_IQ2_BN, n_per_row);
-    // const int nb = (k + 255) / 256;
-    // dequantize_block_iq2_bn<<<nb, 32, 0, stream>>>(vx, y, n_per_row, row_size, nrows);
-// }
+template<typename dst_t>
+static void dequantize_row_iq1_bn_cuda(const void * vx, dst_t * y, const int64_t nrows, const int64_t n_per_row, cudaStream_t stream) {
+    const int64_t k = nrows * n_per_row;
+    const int64_t row_size = ggml_row_size(GGML_TYPE_IQ1_BN, n_per_row);
+    const int nb = (k + 255) / 256;
+    dequantize_block_iq1_bn<<<nb, 32, 0, stream>>>(vx, y, n_per_row, row_size, nrows);
+}
+
+template<typename dst_t>
+static void dequantize_row_iq2_bn_cuda(const void * vx, dst_t * y, const int64_t nrows, const int64_t n_per_row, cudaStream_t stream) {
+    const int64_t k = nrows * n_per_row;
+    const int64_t row_size = ggml_row_size(GGML_TYPE_IQ2_BN, n_per_row);
+    const int nb = (k + 255) / 256;
+    dequantize_block_iq2_bn<<<nb, 32, 0, stream>>>(vx, y, n_per_row, row_size, nrows);
+}
 
 template<typename dst_t>
 static void dequantize_row_iq4_xs_cuda(const void * vx, dst_t * y, const int64_t nrows, const int64_t n_per_row, cudaStream_t stream) {
 
@@ -631,7 +631,7 @@ __device__ __forceinline__ float vec_dot_iq3_k_q8_1(
 
 }
 
-/* __device__ __forceinline__ float vec_dot_iq1_bn_q8_1(
+__device__ __forceinline__ float vec_dot_iq1_bn_q8_1(
     const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int & kbx, const int & iqs) {
 
     half d16; memcpy(&d16, vbq, sizeof(d16));
@@ -729,7 +729,7 @@ __device__ __forceinline__ float vec_dot_iq2_bn_q8_1(
     auto d8h = __half22float2(bq8_1[1].ds);
     return scale * (d8l.x * (sumi1 + 0.25f*sumi2) + 0.0625f * d8h.x*(sumi3 + 0.25f*sumi4) - 0.5f*d8l.y - 0.5f*d8h.y);
 #endif
-} */
+}
 
 } // namespace
 
@@ -796,14 +796,16 @@ void mul_mat_vec_iq6_k_q8_1_cuda(
     iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ6_K, VDR_IQ6_K_Q8_1_MMVQ, vec_dot_iq6_k_q8_1>(vx, vy, dst, ncols_x, nrows_x, nrows_y, ncols_y, nrows_dst, stream);
 }
 
-/* void mul_mat_vec_iq1_bn_q8_1_cuda(
+void mul_mat_vec_iq1_bn_q8_1_cuda(
     const void * vx, const void * vy, float * dst,
     const int ncols_x, const int nrows_x, const int nrows_y, const int ncols_y, const int nrows_dst, cudaStream_t stream) {
+
     iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ1_BN, 1, vec_dot_iq1_bn_q8_1>(vx, vy, dst, ncols_x, nrows_x, nrows_y, ncols_y, nrows_dst, stream);
 }
 
 void mul_mat_vec_iq2_bn_q8_1_cuda(
     const void * vx, const void * vy, float * dst,
     const int ncols_x, const int nrows_x, const int nrows_y, const int ncols_y, const int nrows_dst, cudaStream_t stream) {
+
     iqk_mul_mat_vec_q_cuda<GGML_TYPE_IQ2_BN, 1, vec_dot_iq2_bn_q8_1>(vx, vy, dst, ncols_x, nrows_x, nrows_y, ncols_y, nrows_dst, stream);
-} */
+}
@@ -428,12 +428,12 @@ void ggml_cuda_op_mul_mat_vec_q(
         case GGML_TYPE_IQ1_M:
             mul_mat_vec_iq1_m_q8_1_cuda(src0_dd_i, src1_ddq_i, dst_dd_i, ne00, row_diff, src1_padded_row_size, src1_ncols, nrows_dst, stream);
             break;
-/*         case GGML_TYPE_IQ1_BN:
+        case GGML_TYPE_IQ1_BN:
             mul_mat_vec_iq1_bn_q8_1_cuda(src0_dd_i, src1_ddq_i, dst_dd_i, ne00, row_diff, src1_padded_row_size, src1_ncols, nrows_dst, stream);
             break;
         case GGML_TYPE_IQ2_BN:
             mul_mat_vec_iq2_bn_q8_1_cuda(src0_dd_i, src1_ddq_i, dst_dd_i, ne00, row_diff, src1_padded_row_size, src1_ncols, nrows_dst, stream);
-            break; */
+            break;
         case GGML_TYPE_IQ4_NL:
             mul_mat_vec_iq4_nl_q8_1_cuda(src0_dd_i, src1_ddq_i, dst_dd_i, ne00, row_diff, src1_padded_row_size, src1_ncols, nrows_dst, stream);
             break;
 
@@ -5458,8 +5458,8 @@ bool ggml_validate_row_data(enum ggml_type type, const void * data, size_t nbyte
             // {
                 // VALIDATE_ROW_DATA_D_F16_IMPL(block_iq4_kt, data, nb);
             // } break;
-        // case GGML_TYPE_IQ1_BN: break;
-        // case GGML_TYPE_IQ2_BN: break;
+        case GGML_TYPE_IQ1_BN: break;
+        case GGML_TYPE_IQ2_BN: break;
         // case GGML_TYPE_IQ2_K: break;
         case GGML_TYPE_IQ2_KS: break;
         case GGML_TYPE_IQ2_KT: break;
 
@@ -837,6 +837,32 @@ static const struct ggml_type_traits type_traits[GGML_TYPE_COUNT] = {
         .from_float_ref           = (ggml_from_float_t)quantize_row_iq4_xs_ref,
         .row_meta_size = 0,
     },
+    [GGML_TYPE_IQ1_BN] = {
+        .type_name                = "iq1_bn",
+        .blck_size                = QK_IQ1BN,
+        .type_size                = sizeof(block_iq1_bn),
+        .is_quantized             = true,
+        .to_float                 = (ggml_to_float_t) dequantize_row_iq1_bn,
+        // .from_float               = quantize_row_iq1_bn,
+        .from_float_ref           = (ggml_from_float_t)quantize_row_iq1_bn_ref,
+        // .vec_dot                  = ggml_vec_dot_iq1_bn_q8_K64,
+        // .vec_dot_type             = GGML_TYPE_Q8_K64,
+        // .nrows                    = 1,
+        .row_meta_size            = 2,
+    },
+    [GGML_TYPE_IQ2_BN] = {
+        .type_name                = "iq2_bn",
+        .blck_size                = QK_IQ1BN,
+        .type_size                = sizeof(block_iq2_bn),
+        .is_quantized             = true,
+        .to_float                 = (ggml_to_float_t) dequantize_row_iq2_bn,
+        // .from_float               = quantize_row_iq2_bn,
+        .from_float_ref           = (ggml_from_float_t)quantize_row_iq2_bn_ref,
+        // .vec_dot                  = vec_dot_iq2_bn_q8_K64,
+        // .vec_dot_type             = GGML_TYPE_Q8_K64,
+        // .nrows                    = 1,
+        .row_meta_size            = 4,
+    },
     [GGML_TYPE_IQ4_KS] = {
         .type_name                = "iq4_ks",
         .blck_size                = QK_K,
@@ -1522,6 +1548,8 @@ enum ggml_type ggml_ftype_to_ggml_type(enum ggml_ftype ftype) {
         case GGML_FTYPE_MOSTLY_IQ3_XXS:       wtype = GGML_TYPE_IQ3_XXS;  break;
         case GGML_FTYPE_MOSTLY_IQ1_S:         wtype = GGML_TYPE_IQ1_S;    break;
         case GGML_FTYPE_MOSTLY_IQ1_M:         wtype = GGML_TYPE_IQ1_M;    break;
+        case GGML_FTYPE_MOSTLY_IQ1_BN:        wtype = GGML_TYPE_IQ1_BN;   break;
+        case GGML_FTYPE_MOSTLY_IQ2_BN:        wtype = GGML_TYPE_IQ2_BN;   break;
         case GGML_FTYPE_MOSTLY_IQ4_NL:        wtype = GGML_TYPE_IQ4_NL;   break;
         case GGML_FTYPE_MOSTLY_IQ4_XS:        wtype = GGML_TYPE_IQ4_XS;   break;
         case GGML_FTYPE_MOSTLY_IQ4_KS:        wtype = GGML_TYPE_IQ4_KS;   break;
@@ -6899,6 +6927,8 @@ size_t ggml_quantize_chunk(
         case GGML_TYPE_IQ2_S:   result = quantize_iq2_s  (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ1_S:   result = quantize_iq1_s  (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ1_M:   result = quantize_iq1_m  (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
+        case GGML_TYPE_IQ1_BN:  result = quantize_iq1_bn (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
+        case GGML_TYPE_IQ2_BN:  result = quantize_iq2_bn (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ4_NL:  result = quantize_iq4_nl (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ4_XS:  result = quantize_iq4_xs (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;
         case GGML_TYPE_IQ4_KS:  result = quantize_iq4_ks (src + start, (char *) dst + start_row * row_size, nrows, n_per_row, imatrix); break;