ggml-org
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 3 additions & 1 deletion b/‎ggml/include/ggml.h‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎ggml/src/ggml-common.h‎
Lines changed: 24 additions & 0 deletions b/‎ggml/src/ggml-common.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cpu/arch/x86/quants.c‎
Lines changed: 129 additions & 1 deletion b/‎ggml/src/ggml-cpu/arch/x86/quants.c‎
Lines changed: 129 additions & 1 deletion
diff --git a/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 6 additions & 0 deletions b/‎ggml/src/ggml-cpu/ggml-cpu.c‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 7 additions & 0 deletions b/‎ggml/src/ggml-cpu/ops.cpp‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cpu/quants.c‎
Lines changed: 56 additions & 0 deletions b/‎ggml/src/ggml-cpu/quants.c‎
Lines changed: 56 additions & 0 deletions
diff --git a/‎ggml/src/ggml-cpu/quants.h‎
Lines changed: 4 additions & 0 deletions b/‎ggml/src/ggml-cpu/quants.h‎
Lines changed: 4 additions & 0 deletions
@@ -418,7 +418,8 @@ extern "C" {
         // GGML_TYPE_IQ4_NL_8_8 = 38,
         GGML_TYPE_MXFP4   = 39, // MXFP4 (1 block)
         GGML_TYPE_MXFP6_E3M2   = 40,
-        GGML_TYPE_COUNT   = 41,
+        GGML_TYPE_MXFP6_E2M3   = 41,
+        GGML_TYPE_COUNT   = 42,
     };
 
     // precision
@@ -455,6 +456,7 @@ extern "C" {
         GGML_FTYPE_MOSTLY_BF16    = 24, // except 1d tensors
         GGML_FTYPE_MOSTLY_MXFP4   = 25, // except 1d tensors
         GGML_FTYPE_MOSTLY_MXFP6_E3M2   = 26, // except 1d tensors
+        GGML_FTYPE_MOSTLY_MXFP6_E2M3   = 27, // except 1d tensors
     };
 
     // available tensor operations:
 
@@ -106,6 +106,10 @@ typedef sycl::half2 ggml_half2;
 // FIXME: QR(Value Per Byte) does not match this
 #define QR_MXFP6_E3M2 2
 
+#define QI_MXFP6_E2M3 (QK_MXFP6_E3M2 * 3 / (4 * 4))
+// FIXME: QR(Value Per Byte) does not match this
+#define QR_MXFP6_E2M3 2
+
 #define QI5_0 (QK5_0 / (4 * QR5_0))
 #define QR5_0 2
 
@@ -205,6 +209,12 @@ typedef struct {
 } block_mxfp6_e3m2;
 static_assert(sizeof(block_mxfp6_e3m2) == sizeof(uint8_t) + QK_MXFP6_E3M2 * 3 / 4, "wrong mxfp6_e3m2 block size/padding");
 
+#define QK_MXFP6_E2M3 32
+typedef struct {
+    uint8_t e; // E8M0
+    uint8_t qs[QK_MXFP6_E2M3 * 3 / 4]; // 6bits -> 8bits
+} block_mxfp6_e2m3;
+static_assert(sizeof(block_mxfp6_e2m3) == sizeof(uint8_t) + QK_MXFP6_E2M3 * 3 / 4, "wrong mxfp6_e2m3 block size/padding");
 
 #define QK5_0 32
 typedef struct {
@@ -1118,6 +1128,20 @@ GGML_TABLE_BEGIN(int16_t, kvalues_mxfp6_e3m2, 64)
     -256, -320, -384, -448,
 GGML_TABLE_END()
 
+// 8^(-1)
+#define MXFP6_SCALER 0.125f
+GGML_TABLE_BEGIN(int16_t, kvalues_mxfp6_e2m3, 64)
+    0, 1, 2, 3, 4, 5, 6, 7,
+    8, 9, 10, 11, 12, 13, 14, 15,
+    16, 18, 20, 22, 24, 26, 28, 30,
+    32, 36, 40, 44, 48, 52, 56, 60,
+    0, -1, -2, -3, -4, -5, -6, -7,
+    -8, -9, -10, -11, -12, -13, -14, -15,
+    -16, -18, -20, -22, -24, -26, -28, -30,
+    -32, -36, -40, -44, -48, -52, -56, -60
+GGML_TABLE_END()
+
+
 #define NGRID_IQ1S 2048
 #define IQ1S_DELTA 0.125f
 #define IQ1M_DELTA 0.125f
 
@@ -860,7 +860,7 @@ void ggml_vec_dot_mxfp6_e3m2_q8_0(int n, float * GGML_RESTRICT s, size_t bs, con
         int ib = 0;
         float sumf = 0;
 
-    #if 0 //defined __AVX2__
+    #if defined __AVX2__
         __m256 accum_ps = _mm256_setzero_ps();
 
         for (; ib + 1 < nb; ib += 2) {
@@ -969,6 +969,134 @@ void ggml_vec_dot_mxfp6_e3m2_q8_0(int n, float * GGML_RESTRICT s, size_t bs, con
         *s = sumf;
 }
 
+void ggml_vec_dot_mxfp6_e2m3_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
+    assert(nrc == 1);
+        UNUSED(nrc);
+        UNUSED(bx);
+        UNUSED(by);
+        UNUSED(bs);
+        assert(n % QK_MXFP6_E2M3 == 0);
+        static_assert(QK_MXFP6_E2M3 == QK8_0, "QK_MXFP6_E2M3 and QK8_0 must be the same");
+        assert(QK_MXFP6_E2M3 == 32);
+
+        const block_mxfp6_e2m3 * GGML_RESTRICT x = vx;
+        const block_q8_0 * GGML_RESTRICT y = vy;
+
+        const int nb = n / QK_MXFP6_E2M3;
+
+        int ib = 0;
+        float sumf = 0;
+
+    #if defined __AVX2__
+        __m256 accum_ps = _mm256_setzero_ps();
+
+        for (; ib + 1 < nb; ib += 2) {
+            const block_mxfp6_e2m3 * x1 = &x[ib + 0];
+            const block_q8_0       * y1 = &y[ib + 0];
+
+            const block_mxfp6_e2m3 * x2 = &x[ib + 1];
+            const block_q8_0       * y2 = &y[ib + 1];
+
+            int16_t k_vals_1[32];
+            {
+                const uint8_t * q3 = x1->qs;
+                for (int j = 0; j < 8; ++j) {
+                    const uint8_t b0 = q3[0];
+                    const uint8_t b1 = q3[1];
+                    const uint8_t b2 = q3[2];
+                    k_vals_1[4*j + 0] = kvalues_mxfp6_e2m3[b0 & 0x3F];
+                    k_vals_1[4*j + 1] = kvalues_mxfp6_e2m3[(b0 >> 6) | ((b1 & 0x0F) << 2)];
+                    k_vals_1[4*j + 2] = kvalues_mxfp6_e2m3[(b1 >> 4) | ((b2 & 0x03) << 4)];
+                    k_vals_1[4*j + 3] = kvalues_mxfp6_e2m3[b2 >> 2];
+                    q3 += 3;
+                }
+            }
+
+            int16_t k_vals_2[32];
+            {
+                const uint8_t * q3 = x2->qs;
+                for (int j = 0; j < 8; ++j) {
+                    const uint8_t b0 = q3[0];
+                    const uint8_t b1 = q3[1];
+                    const uint8_t b2 = q3[2];
+                    k_vals_2[4*j + 0] = kvalues_mxfp6_e2m3[b0 & 0x3F];
+                    k_vals_2[4*j + 1] = kvalues_mxfp6_e2m3[(b0 >> 6) | ((b1 & 0x0F) << 2)];
+                    k_vals_2[4*j + 2] = kvalues_mxfp6_e2m3[(b1 >> 4) | ((b2 & 0x03) << 4)];
+                    k_vals_2[4*j + 3] = kvalues_mxfp6_e2m3[b2 >> 2];
+                    q3 += 3;
+                }
+            }
+
+            const __m256i k_1_lo = _mm256_load_si256((const __m256i *)(k_vals_1 +  0)); // k-vals 0-15
+            const __m256i k_1_hi = _mm256_load_si256((const __m256i *)(k_vals_1 + 16)); // k-vals 16-31
+
+            const __m256i q8_1_all = _mm256_loadu_si256((const __m256i *)y1->qs);
+
+            const __m256i q8_1_lo = _mm256_cvtepi8_epi16(_mm256_extracti128_si256(q8_1_all, 0)); // q-vals 0-15
+            const __m256i q8_1_hi = _mm256_cvtepi8_epi16(_mm256_extracti128_si256(q8_1_all, 1)); // q-vals 16-31
+
+            const __m256i p_1_lo = _mm256_madd_epi16(k_1_lo, q8_1_lo);
+            const __m256i p_1_hi = _mm256_madd_epi16(k_1_hi, q8_1_hi);
+
+            const __m256i p_1_all = _mm256_add_epi32(p_1_lo, p_1_hi); // 8x s32
+
+            const __m256i k_2_lo = _mm256_load_si256((const __m256i *)(k_vals_2 +  0));
+            const __m256i k_2_hi = _mm256_load_si256((const __m256i *)(k_vals_2 + 16));
+            const __m256i q8_2_all = _mm256_loadu_si256((const __m256i *)y2->qs);
+            const __m256i q8_2_lo = _mm256_cvtepi8_epi16(_mm256_extracti128_si256(q8_2_all, 0));
+            const __m256i q8_2_hi = _mm256_cvtepi8_epi16(_mm256_extracti128_si256(q8_2_all, 1));
+            const __m256i p_2_lo = _mm256_madd_epi16(k_2_lo, q8_2_lo);
+            const __m256i p_2_hi = _mm256_madd_epi16(k_2_hi, q8_2_hi);
+            const __m256i p_2_all = _mm256_add_epi32(p_2_lo, p_2_hi); // 8x s32
+
+            const __m256 p_1_ps = _mm256_cvtepi32_ps(p_1_all);
+            const __m256 p_2_ps = _mm256_cvtepi32_ps(p_2_all);
+
+            // (d = d_y * d_x)
+            const float d1 = GGML_CPU_FP16_TO_FP32(y1->d) * GGML_E8M0_TO_FP32_HALF(x1->e);
+            const float d2 = GGML_CPU_FP16_TO_FP32(y2->d) * GGML_E8M0_TO_FP32_HALF(x2->e);
+
+            const __m256 d_1_ps = _mm256_set1_ps(d1);
+            const __m256 d_2_ps = _mm256_set1_ps(d2);
+
+            // Fused Multiply-Add (FMA): accum = (d * p) + accum
+            accum_ps = _mm256_fmadd_ps(d_1_ps, p_1_ps, accum_ps);
+            accum_ps = _mm256_fmadd_ps(d_2_ps, p_2_ps, accum_ps);
+        }
+
+        sumf = hsum_float_8(accum_ps);
+    #endif
+
+        for (; ib < nb; ++ib) {
+            const float d = GGML_CPU_FP16_TO_FP32(y[ib].d) * GGML_E8M0_TO_FP32_HALF(x[ib].e);
+
+            int sumi = 0;
+
+            for (int j = 0; j < QK_MXFP6_E2M3 / 4; ++j) {
+                const uint8_t * q3 = x[ib].qs + 3 * j;
+                const int8_t * q8 = y[ib].qs + 4 * j;
+
+                const uint8_t b0 = q3[0];
+                const uint8_t b1 = q3[1];
+                const uint8_t b2 = q3[2];
+
+                const uint8_t v0_idx = b0 & 0x3F;
+                const uint8_t v1_idx = (b0 >> 6) | ((b1 & 0x0F) << 2);
+                const uint8_t v2_idx = (b1 >> 4) | ((b2 & 0x03) << 4);
+                const uint8_t v3_idx = b2 >> 2;
+
+                sumi += q8[0] * kvalues_mxfp6_e2m3[v0_idx];
+                sumi += q8[1] * kvalues_mxfp6_e2m3[v1_idx];
+                sumi += q8[2] * kvalues_mxfp6_e2m3[v2_idx];
+                sumi += q8[3] * kvalues_mxfp6_e2m3[v3_idx];
+            }
+            sumf += d * sumi;
+        }
+
+        *s = sumf;
+}
+
+
 void ggml_vec_dot_q5_0_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_0;
     const int nb = n / qk;
 
@@ -265,6 +265,12 @@ static const struct ggml_type_traits_cpu type_traits_cpu[GGML_TYPE_COUNT] = {
         .vec_dot_type             = GGML_TYPE_Q8_0,
         .nrows                    = 1,
     },
+    [GGML_TYPE_MXFP6_E2M3] = {
+        .from_float               = quantize_row_mxfp6_e2m3,
+        .vec_dot                  = ggml_vec_dot_mxfp6_e2m3_q8_0,
+        .vec_dot_type             = GGML_TYPE_Q8_0,
+        .nrows                    = 1,
+    },
     [GGML_TYPE_Q2_K] = {
         .from_float               = quantize_row_q2_K,
         .vec_dot                  = ggml_vec_dot_q2_K_q8_K,
 
@@ -669,6 +669,7 @@ void ggml_compute_forward_add(
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_MXFP4:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -1119,6 +1120,7 @@ void ggml_compute_forward_add1(
         case GGML_TYPE_Q8_1:
         case GGML_TYPE_MXFP4:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -1247,6 +1249,7 @@ void ggml_compute_forward_acc(
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_Q8_1:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -4143,6 +4146,7 @@ void ggml_compute_forward_out_prod(
         case GGML_TYPE_Q5_1:
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -4418,6 +4422,7 @@ void ggml_compute_forward_set(
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_Q8_1:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -4680,6 +4685,7 @@ void ggml_compute_forward_get_rows(
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_Q8_1:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
@@ -5404,6 +5410,7 @@ void ggml_compute_forward_clamp(
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_Q8_1:
         case GGML_TYPE_MXFP6_E3M2:
+        case GGML_TYPE_MXFP6_E2M3:
         case GGML_TYPE_Q2_K:
         case GGML_TYPE_Q3_K:
         case GGML_TYPE_Q4_K:
 
@@ -54,6 +54,10 @@ void quantize_row_mxfp6_e3m2(const float * GGML_RESTRICT x, void * GGML_RESTRICT
     quantize_row_mxfp6_e3m2_ref(x, y, k);
 }
 
+void quantize_row_mxfp6_e2m3(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k) {
+    quantize_row_mxfp6_e2m3_ref(x, y, k);
+}
+
 //
 // 2-6 bit quantization in super-blocks
 //
@@ -271,6 +275,58 @@ void ggml_vec_dot_mxfp6_e3m2_q8_0_generic(int n, float * GGML_RESTRICT s, size_t
     *s = sumf;
 }
 
+void ggml_vec_dot_mxfp6_e2m3_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc)
+{
+    assert(nrc == 1);
+    UNUSED(nrc);
+    UNUSED(bx);
+    UNUSED(by);
+    UNUSED(bs);
+    assert(n % QK_MXFP6_E2M3 == 0);
+    static_assert(QK_MXFP6_E2M3 == QK8_0, "QK_MXFP6_E2M3 and QK8_0 must be the same");
+
+    const block_mxfp6_e2m3 * GGML_RESTRICT x = vx;
+    const block_q8_0 * GGML_RESTRICT y = vy;
+
+    const int nb = n / QK_MXFP6_E2M3;
+
+    int ib = 0;
+    float sumf = 0;
+
+    for (; ib < nb; ++ib) {
+        const float d = GGML_CPU_FP16_TO_FP32(y[ib].d)*GGML_E8M0_TO_FP32_HALF(x[ib].e);
+        int sumi = 0;
+        // Q8_0 (y) * MXFP6 (block_size = 32)
+        for (int j = 0; j < QK_MXFP6_E2M3/4; ++j) {
+            // Current Packed MXFP6
+            const uint8_t* q3 = x[ib].qs + 3 * j;
+            // Current Packed Q8_0
+            const int8_t* q8 = y[ib].qs + 4 * j;
+
+            const uint8_t b0 = q3[0];
+            const uint8_t b1 = q3[1];
+            const uint8_t b2 = q3[2];
+
+            const uint8_t v0_idx = b0 & 0x3F;
+            const uint8_t v1_idx = (b0 >> 6) | ((b1 & 0x0F) << 2);
+            const uint8_t v2_idx = (b1 >> 4) | ((b2 & 0x03) << 4);
+            const uint8_t v3_idx = b2 >> 2;
+
+            // (y[4*j + 0] * x[4*j + 0])
+            sumi += q8[0] * kvalues_mxfp6_e2m3[v0_idx];
+            // (y[4*j + 1] * x[4*j + 1])
+            sumi += q8[1] * kvalues_mxfp6_e2m3[v1_idx];
+            // (y[4*j + 2] * x[4*j + 2])
+            sumi += q8[2] * kvalues_mxfp6_e2m3[v2_idx];
+            // (y[4*j + 3] * x[4*j + 3])
+            sumi += q8[3] * kvalues_mxfp6_e2m3[v3_idx];
+        }
+        sumf += d * sumi;
+    }
+    *s = sumf;
+}
+
+
 void ggml_vec_dot_q5_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc) {
     const int qk = QK8_0;
     const int nb = n / qk;
 
@@ -21,6 +21,7 @@ void quantize_row_q8_1(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, in
 
 void quantize_row_mxfp4(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
 void quantize_row_mxfp6_e3m2(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
+void quantize_row_mxfp6_e2m3(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
 
 void quantize_row_q2_K(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
 void quantize_row_q3_K(const float * GGML_RESTRICT x, void * GGML_RESTRICT y, int64_t k);
@@ -44,6 +45,7 @@ void ggml_vec_dot_q8_0_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const voi
 
 void ggml_vec_dot_mxfp4_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 void ggml_vec_dot_mxfp6_e3m2_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
+void ggml_vec_dot_mxfp6_e2m3_q8_0(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 
 void ggml_vec_dot_q2_K_q8_K(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 void ggml_vec_dot_q3_K_q8_K(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
@@ -75,6 +77,8 @@ void ggml_vec_dot_q5_1_q8_1_generic(int n, float * GGML_RESTRICT s, size_t bs, c
 void ggml_vec_dot_q8_0_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 
 void ggml_vec_dot_mxfp4_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
+void ggml_vec_dot_mxfp6_e2m3_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
+void ggml_vec_dot_mxfp6_e3m2_q8_0_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 
 void ggml_vec_dot_tq1_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);
 void ggml_vec_dot_tq2_0_q8_K_generic(int n, float * GGML_RESTRICT s, size_t bs, const void * GGML_RESTRICT vx, size_t bx, const void * GGML_RESTRICT vy, size_t by, int nrc);