Vulkan: OUT_PROD performance improvements

Italo Nicola · Italo Nicola · commit afd0e47c3d37 · 2025-11-21T16:17:26.000-05:00
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/out_prod_q4_0.comp b/ggml/src/ggml-vulkan/vulkan-shaders/out_prod_q4_0.comp
@@ -17,41 +17,39 @@ void get_dst_indices(uint idx, out uint i20, out uint i21, out uint i22, out uin
 }
 
 void main() {
-    // num_threads * num_iter must equal 512 to match the wg_denoms and get_idx
-    const uint num_iter = 2;
-
     const uint broadcast2 = uint(p.param2);
     const uint broadcast3 = p.param3;
 
-    uint idx = get_idx();
+    uint idx_base = gl_GlobalInvocationID.z * 262144 + gl_GlobalInvocationID.y * 512;
+    uint idx = idx_base + (gl_GlobalInvocationID.x / 16) * 16 + gl_GlobalInvocationID.x;
+
+    if (idx < p.ne) {
+        uint i0, i1, i2, i3;
+        get_dst_indices(idx, i0, i1, i2, i3);
 
-    [[unroll]] for (uint it = 0; it < num_iter; ++it) {
-        if (idx < p.ne) {
-            uint i0, i1, i2, i3;
-            get_dst_indices(idx, i0, i1, i2, i3);
+        vec2 acc = vec2(0.0f);
 
-            float acc = 0.0f;
+        if (i0 + 16 < p.ne20) { // XXX
+            [[unroll]] for (uint k = 0; k < p.ne01; k += 1) {
 
-            for (uint k = 0; k < p.ne01; k += 1) {
                 const uint a_block_base = get_aoffset() + (i3 / broadcast3) * p.nb03 + (i2 / broadcast2) * p.nb02 + k * p.nb01;
                 const uint ib = a_block_base + (i0 / QUANT_K);
                 const uint iqs = i0 % (QUANT_K / QUANT_R);
-                const uint upper = (i0 % QUANT_K) / (QUANT_K / QUANT_R);
-                const uint lower = 1 - upper;
 
                 const vec2 v = dequantize(ib, iqs, 0);
                 const vec2 dm = get_dm(ib, 0);
 
-                const float a_val = (v.x * lower + v.y * upper) * dm.x + dm.y;
+                const vec2 a_vals = v * dm.x + dm.y;
 
                 const uint b_idx = src1_idx(i1, k, i2, i3);
                 const float b = data_b[get_boffset() + b_idx];
-                acc += a_val * b;
+                acc += a_vals * b;
             }
 
-            uint d_idx = dst_idx(i0, i1, i2, i3);
-            data_d[get_doffset() + d_idx] = acc;
+            uint d_idx_0 = dst_idx(i0, i1, i2, i3);
+            data_d[get_doffset() + d_idx_0] = acc.x;
+            uint d_idx_1 = dst_idx(i0 + 16, i1, i2, i3);
+            data_d[get_doffset() + d_idx_1] = acc.y;
         }
-        idx += num_threads;
     }
 }
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/out_prod_q8_0.comp b/ggml/src/ggml-vulkan/vulkan-shaders/out_prod_q8_0.comp
@@ -4,8 +4,7 @@
 #include "generic_binary_head.comp"
 #include "dequant_funcs.comp"
 
-const uint quant_group_sz = 2;
-const uint num_threads = 512 / quant_group_sz;
+const uint num_threads = 256;
 layout(local_size_x = num_threads, local_size_y = 1, local_size_z = 1) in;
 
 void get_dst_indices(uint idx, out uint i20, out uint i21, out uint i22, out uint i23) {
@@ -21,7 +20,7 @@ void main() {
     const uint broadcast2 = uint(p.param2);
     const uint broadcast3 = p.param3;
 
-    uint idx = gl_GlobalInvocationID.z * 262144 + gl_GlobalInvocationID.y * 512 + gl_GlobalInvocationID.x * quant_group_sz;
+    uint idx = gl_GlobalInvocationID.z * 262144 + gl_GlobalInvocationID.y * 512 + gl_GlobalInvocationID.x * 2;
 
     uint aoffset = get_aoffset();
     uint boffset = get_boffset();
@@ -33,32 +32,27 @@ void main() {
 
         vec2 acc = vec2(0.0);
 
-        for (uint k = 0; k < p.ne01; k++) {
-            if (i0 + 1 >= p.ne20) {
-                continue;
-            }
-
-            const uint a_block_base = aoffset + (i3 / broadcast3) * p.nb03 + (i2 / broadcast2) * p.nb02 + k * p.nb01;
-            const uint ib = a_block_base + ((i0) / QUANT_K) * p.nb00;
-            const uint iqs = ((i0) % QUANT_K) / QUANT_R;
+        if (i0 + 1 < p.ne20) {
+            [[unroll]] for (uint k = 0; k < p.ne01; k++) {
 
-            const vec2 v = dequantize(ib, iqs, 0);
-            const vec2 dm = get_dm(ib, 0);
-            const vec2 a_vals = v * dm.x + dm.y;
+                const uint a_block_base = aoffset + (i3 / broadcast3) * p.nb03 + (i2 / broadcast2) * p.nb02 + k * p.nb01;
+                const uint ib = a_block_base + ((i0) / QUANT_K) * p.nb00;
+                const uint iqs = ((i0) % QUANT_K) / QUANT_R;
 
-            const uint b_idx = src1_idx(i1, k, i2, i3);
-            const float b = data_b[boffset + b_idx];
+                const vec2 v = dequantize(ib, iqs, 0);
+                const vec2 dm = get_dm(ib, 0);
+                const vec2 a_vals = v * dm.x + dm.y;
 
-            acc += a_vals * b;
-        }
+                const uint b_idx = src1_idx(i1, k, i2, i3);
+                const float b = data_b[boffset + b_idx];
 
-        uint d_idx = dst_idx(i0, i1, i2, i3);
-        for (uint q = 0; q < quant_group_sz; q++) {
-            if (d_idx + q >= p.ne) {
-                continue;
+                acc += a_vals * b;
             }
 
-            data_d[doffset + d_idx + q] = acc[q];
+            uint d_idx_0 = dst_idx(i0, i1, i2, i3);
+            data_d[doffset + d_idx_0] = acc.x;
+            uint d_idx_1 = dst_idx(i0 + 1, i1, i2, i3);
+            data_d[doffset + d_idx_1] = acc.y;
         }
     }
 }
diff --git a/tests/test-backend-ops.cpp b/tests/test-backend-ops.cpp
@@ -6169,6 +6169,23 @@ static std::vector<std::unique_ptr<test_case>> make_test_cases_eval() {
     test_cases.emplace_back(new test_gla(GGML_TYPE_F32, 32, 64, 32, 4));
     test_cases.emplace_back(new test_gla(GGML_TYPE_F32, 32, 64, 128, 4));
 
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q4_0, GGML_TYPE_F32, 32, 1, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q4_0, GGML_TYPE_F32, 32, 2, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q4_0, GGML_TYPE_F32, 32, 4, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q4_0, GGML_TYPE_F32, 32, 8, 32, {1,  1}, {1, 1}));
+
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q8_0, GGML_TYPE_F32, 32, 1, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q8_0, GGML_TYPE_F32, 32, 2, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q8_0, GGML_TYPE_F32, 32, 4, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q8_0, GGML_TYPE_F32, 32, 8, 32, {1,  1}, {1, 1}));
+
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q6_K, GGML_TYPE_F32, 32, 1, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q6_K, GGML_TYPE_F32, 32, 2, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q6_K, GGML_TYPE_F32, 32, 4, 32, {1,  1}, {1, 1}));
+    test_cases.emplace_back(new test_out_prod(GGML_TYPE_Q6_K, GGML_TYPE_F32, 32, 8, 32, {1,  1}, {1, 1}));
+
+
+
 #if 0 // these tests are disabled due to high memory usage and long runtime, they can fail on some backends
     test_cases.emplace_back(new test_mul_mat(GGML_TYPE_Q8_0, GGML_TYPE_F32, 4096*40, 256, 1024, { 1,  1}, {1, 1}));
     test_cases.emplace_back(new test_mul_mat(GGML_TYPE_Q4_0, GGML_TYPE_F32, 4096*40, 256, 1024, { 1,  1}, {1, 1}));