(wip) Vulkan: Adreno Q4_0 fix

Italo Nicola · Italo Nicola · commit d4c5db4847c9 · 2025-09-26T09:29:18.000-03:00
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs.comp b/ggml/src/ggml-vulkan/vulkan-shaders/dequant_funcs.comp
@@ -35,8 +35,9 @@ vec2 dequantize(uint ib, uint iqs, uint a_offset) {
     return (vec2(vui & 0xF, vui >> 4) - 8.0f);
 }
 vec4 dequantize4(uint ib, uint iqs, uint a_offset) {
-    const uint vui = uint(data_a_packed16[a_offset + ib].qs[iqs/2]);
-    return (vec4(vui & 0xF, (vui >> 4) & 0xF, (vui >> 8) & 0xF, vui >> 12) - 8.0f);
+    const vec2 v01 = dequantize(ib, iqs, a_offset);
+    const vec2 v23 = dequantize(ib, iqs + 1, a_offset);
+    return vec4(v01.x, v01.y, v23.x, v23.y);
 }
 #endif
 
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/flash_attn_base.comp b/ggml/src/ggml-vulkan/vulkan-shaders/flash_attn_base.comp
@@ -62,16 +62,33 @@ layout (binding = 1) readonly buffer KV_PACKED16 {A_TYPE_PACKED16 data_packed16[
 #endif
 
 #if defined(DATA_A_Q4_0)
+#define BINDING_IDX_K 0
+#define BINDING_IDX_V 1
+layout (binding = 1) readonly buffer KV_PACKED16 {A_TYPE data[];} kv_packed[2];
 #define BLOCK_BYTE_SIZE 18
 
 vec4 dequantize4(uint ib, uint iqs, uint a_offset, uint binding_idx) {
-    uint vui_lo = uint(kv_packed[binding_idx].data_packed16[a_offset + ib].qs[(iqs & 0xF) / 2 + 0]);
-    uint vui_hi = uint(kv_packed[binding_idx].data_packed16[a_offset + ib].qs[(iqs & 0xF) / 2 + 1]);
+    uint v00 =
+        uint(kv_packed[binding_idx].data[a_offset + ib].qs[(iqs & 0xF) + 0]);
+    uint v01 =
+        uint(kv_packed[binding_idx].data[a_offset + ib].qs[(iqs & 0xF) + 1]);
+    uint v10 =
+        uint(kv_packed[binding_idx].data[a_offset + ib].qs[(iqs & 0xF) + 2]);
+    uint v11 =
+        uint(kv_packed[binding_idx].data[a_offset + ib].qs[(iqs & 0xF) + 3]);
+
     uint shift = (iqs & 0x10) >> 2;
-    vui_lo >>= shift;
-    vui_hi >>= shift;
+    v00 >>= shift;
+    v01 >>= shift;
+    v10 >>= shift;
+    v11 >>= shift;
+
+    v00 = v00 & 0xF;
+    v01 = v01 & 0xF;
+    v10 = v10 & 0xF;
+    v11 = v11 & 0xF;
 
-    return float(kv_packed[binding_idx].data_packed16[a_offset + ib].d) * (vec4(vui_lo & 0xF, (vui_lo >> 8) & 0xF, vui_hi & 0xF, (vui_hi >> 8) & 0xF) - 8.0f);
+    return float(kv_packed[binding_idx].data[a_offset + ib].d) * (vec4(v00, v01, v10, v11) - 8.0f);
 }
 #endif
 
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec.comp
@@ -24,10 +24,28 @@ void iter(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const uint first_row, const
 
 #if K_PER_ITER == 8
 #if QUANT_R == 2
-        const vec4 bv02 = vec4(data_b_v4[(j*p.batch_stride_b + b_offset + iybs + iqs) / 4]);
-        const vec4 bv13 = vec4(data_b_v4[(j*p.batch_stride_b + b_offset + iybs + iqs + y_offset) / 4]);
-        const vec4 bv0 = vec4(bv02.x, bv13.x, bv02.y, bv13.y);
-        const vec4 bv1 = vec4(bv02.z, bv13.z, bv02.w, bv13.w);
+        // Replicate the original data_b_v4 indexing with /4 rounding
+        uint idx1 = (j*p.batch_stride_b + b_offset + iybs + iqs);
+        uint idx2 = (j*p.batch_stride_b + b_offset + iybs + iqs + y_offset);
+        uint base1 = (idx1 / 4) * 4;  // Round down to nearest multiple of 4
+        uint base2 = (idx2 / 4) * 4;  // Round down to nearest multiple of 4
+        
+        const FLOAT_TYPE bv02_x = FLOAT_TYPE(data_b[base1 + 0]);
+        const FLOAT_TYPE bv02_y = FLOAT_TYPE(data_b[base1 + 1]);
+        const FLOAT_TYPE bv02_z = FLOAT_TYPE(data_b[base1 + 2]);
+        const FLOAT_TYPE bv02_w = FLOAT_TYPE(data_b[base1 + 3]);
+        const FLOAT_TYPE bv13_x = FLOAT_TYPE(data_b[base2 + 0]);
+        const FLOAT_TYPE bv13_y = FLOAT_TYPE(data_b[base2 + 1]);
+        const FLOAT_TYPE bv13_z = FLOAT_TYPE(data_b[base2 + 2]);
+        const FLOAT_TYPE bv13_w = FLOAT_TYPE(data_b[base2 + 3]);
+        // XXX this is not guaranteed to be used for Q4, so make sure it works for everything else
+#if 1
+        const vec4 bv0 = vec4(bv02_x, bv13_x, bv02_y, bv13_y);
+        const vec4 bv1 = vec4(bv02_z, bv13_z, bv02_w, bv13_w);
+#else
+        const vec4 bv0 = vec4(1.0, 1.0, 1.0, 1.0);
+        const vec4 bv1 = vec4(1.0, 1.0, 1.0, 1.0);
+#endif
 #else
         const FLOAT_TYPE bv00 = FLOAT_TYPE(data_b[(j*p.batch_stride_b + b_offset + iybs + iqs) ]);
         const FLOAT_TYPE bv01 = FLOAT_TYPE(data_b[(j*p.batch_stride_b + b_offset + iybs + iqs) + 1]);
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_base.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_base.comp
@@ -10,7 +10,7 @@
 
 layout (binding = 0) readonly buffer A {A_TYPE data_a[];};
 layout (binding = 1) readonly buffer B {B_TYPE data_b[];};
-#if !defined(DATA_A_Q8_0)
+#if !defined(DATA_A_Q8_0) && !defined(DATA_A_Q4_0)
 layout (binding = 1) readonly buffer BV2 {B_TYPE_VEC2 data_b_v2[];};
 layout (binding = 1) readonly buffer BV4 {B_TYPE_VEC4 data_b_v4[];};
 #endif
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mm.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mm.comp
@@ -128,6 +128,18 @@ vec4 dequantize4(uint ib, uint iqs, uint a_offset) {
 }
 #endif
 
+#if defined(DATA_A_Q4_0)
+vec2 dequantize(uint ib, uint iqs, uint a_offset) {
+    const uint vui = uint(data_a[a_offset + ib].qs[iqs]);
+    return (vec2(vui & 0xF, vui >> 4) - 8.0f);
+}
+vec4 dequantize4(uint ib, uint iqs, uint a_offset) {
+    const vec2 v01 = dequantize(ib, iqs, a_offset);
+    const vec2 v23 = dequantize(ib, iqs + 1, a_offset);
+    return vec4(v01.x, v01.y, v23.x, v23.y);
+}
+#endif
+
 void main() {
 #ifdef NEEDS_INIT_IQ_SHMEM
     init_iq_shmem(gl_WorkGroupSize);
@@ -335,6 +347,7 @@ void main() {
             const uint ib = idx / 4;
             const uint iqs = idx & 0x03;
 
+#if 0
             const float d = float(data_a_packed16[ib].d);
             const uint vui = uint(data_a_packed16[ib].qs[2*iqs]) | (uint(data_a_packed16[ib].qs[2*iqs + 1]) << 16);
             const vec4 v0 = (vec4(unpack8(vui & 0x0F0F0F0F)) - 8.0f) * d;
@@ -348,6 +361,20 @@ void main() {
             buf_a[buf_idx + 17] = FLOAT_TYPE(v1.y);
             buf_a[buf_idx + 18] = FLOAT_TYPE(v1.z);
             buf_a[buf_idx + 19] = FLOAT_TYPE(v1.w);
+#else
+            const float d = float(data_a[ib].d);
+            const vec4 vxy = dequantize4(ib, 4*iqs, 0) * d;
+            const vec4 vzw = dequantize4(ib, 4*iqs + 2, 0) * d;
+
+            buf_a[buf_idx     ] = FLOAT_TYPE(vxy.x);
+            buf_a[buf_idx + 1 ] = FLOAT_TYPE(vxy.z);
+            buf_a[buf_idx + 2 ] = FLOAT_TYPE(vzw.x);
+            buf_a[buf_idx + 3 ] = FLOAT_TYPE(vzw.z);
+            buf_a[buf_idx + 16] = FLOAT_TYPE(vxy.y);
+            buf_a[buf_idx + 17] = FLOAT_TYPE(vxy.w);
+            buf_a[buf_idx + 18] = FLOAT_TYPE(vzw.y);
+            buf_a[buf_idx + 19] = FLOAT_TYPE(vzw.w);
+#endif
 #elif defined(DATA_A_Q4_1)
             const uint idx = pos_a + (loadc_a + l) * p.stride_a / LOAD_VEC_A + loadr_a;
             const uint buf_idx = (loadc_a + l) * SHMEM_STRIDE + 4 * loadr_a;
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq.comp
@@ -24,7 +24,7 @@
 
 layout(local_size_x_id = 0, local_size_y = 1, local_size_z = 1) in;
 
-#if defined(DATA_A_Q8_0)
+#if defined(DATA_A_Q8_0) || defined(DATA_A_Q4_0)
 layout (binding = 0) readonly buffer A {A_TYPE data_a[];};
 #else
 layout (binding = 0) readonly buffer A {A_TYPE_PACKED16 data_a[];};
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq_funcs.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq_funcs.comp
@@ -8,12 +8,32 @@
 
 #if defined(DATA_A_Q4_0)
 i32vec2 repack(uint ib, uint iqs) {
+#if 0
     // Use 2-byte loads since a q4_0 block (18 bytes) is not divisible by 4
     const u16vec2 quants = u16vec2(data_a[ib].qs[iqs * 2    ],
                                    data_a[ib].qs[iqs * 2 + 1]);
     const uint32_t vui = pack32(quants);
     return i32vec2( vui       & 0x0F0F0F0F,
                    (vui >> 4) & 0x0F0F0F0F);
+#else
+    int32_t u0 = int32_t(uint(data_a[ib].qs[iqs * 4]));
+    int32_t u1 = int32_t(uint(data_a[ib].qs[iqs * 4 + 1]));
+    int32_t u2 = int32_t(uint(data_a[ib].qs[iqs * 4 + 2]));
+    int32_t u3 = int32_t(uint(data_a[ib].qs[iqs * 4 + 3]));
+
+    int32_t v0 = int32_t(
+            (u0 & 0xF) |
+            ((u1 & 0xF) << 8) |
+            ((u2 & 0xF) << 16) |
+            ((u3 & 0xF) << 24));
+    int32_t v1 = int32_t(
+            ((u0 >> 4) & 0xF) |
+            (((u1 >> 4) & 0xF) << 8) |
+            (((u2 >> 4) & 0xF) << 16) |
+            (((u3 >> 4) & 0xF) << 24));
+    
+    return i32vec2(v0, v1);
+#endif
 }
 
 ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/types.comp b/ggml/src/ggml-vulkan/vulkan-shaders/types.comp
@@ -65,7 +65,7 @@ struct block_q4_0_packed16
 #define QUANT_R QUANT_R_Q4_0
 #define QUANT_AUXF 1
 #define A_TYPE block_q4_0
-#define A_TYPE_PACKED16 block_q4_0_packed16
+//#define A_TYPE_PACKED16 block_q4_0_packed16
 #endif
 
 #define QUANT_K_Q4_1 32

Original file line number	Diff line number	Diff line change
`@@ -35,8 +35,9 @@ vec2 dequantize(uint ib, uint iqs, uint a_offset) {`
`35`	`35`	`return (vec2(vui & 0xF, vui >> 4) - 8.0f);`
`36`	`36`	`}`
`37`	`37`	`vec4 dequantize4(uint ib, uint iqs, uint a_offset) {`
`38`		`- const uint vui = uint(data_a_packed16[a_offset + ib].qs[iqs/2]);`
`39`		`- return (vec4(vui & 0xF, (vui >> 4) & 0xF, (vui >> 8) & 0xF, vui >> 12) - 8.0f);`
	`38`	`+ const vec2 v01 = dequantize(ib, iqs, a_offset);`
	`39`	`+ const vec2 v23 = dequantize(ib, iqs + 1, a_offset);`
	`40`	`+ return vec4(v01.x, v01.y, v23.x, v23.y);`
`40`	`41`	`}`
`41`	`42`	`#endif`
`42`	`43`