llamafile: fix fp32 miscalculation when activating fp16

taronaeo · taronaeo · commit 6c9ebf4f388e · 2025-06-19T14:00:05.000+08:00
Signed-off-by: Aaron Teo &lt;aaron.teo1@ibm.com&gt;
diff --git a/ggml/src/ggml-cpu/llamafile/sgemm.cpp b/ggml/src/ggml-cpu/llamafile/sgemm.cpp
@@ -3458,10 +3458,12 @@ bool llamafile_sgemm(const struct ggml_compute_params * params, int64_t m, int64
             return tb.matmul(m, n);
         }
 #elif defined(__VXE__) || defined(__VXE2__)
-        if (Btype == GGML_TYPE_F32) {
-            tinyBLAS<4, float32x4_t, float32x4_t, ggml_fp16_t, float, float> tb{ params,
+        if (n < 4)
+            return false;
+        if (Btype == GGML_TYPE_FP16) {
+            tinyBLAS<4, float32x4_t, float32x4_t, ggml_fp16_t, ggml_fp16_t, float> tb{ params,
                 k, (const ggml_fp16_t *)A, lda,
-                (const float *)B, ldb,
+                (const ggml_fp16_t *)B, ldb,
                 (float *)C, ldc};
             return tb.matmul(m, n);
         }