llamafile: rework fp16 loading

taronaeo · taronaeo · commit f84a37b379e0 · 2025-06-19T11:53:20.000+08:00
Signed-off-by: Aaron Teo &lt;aaron.teo1@ibm.com&gt;
diff --git a/ggml/src/ggml-cpu/llamafile/sgemm.cpp b/ggml/src/ggml-cpu/llamafile/sgemm.cpp
@@ -250,7 +250,13 @@ template <> inline float32x4_t load(const ggml_fp16_t *p) {
 
 #if defined(__VXE__) || defined(__VXE2__)
 template <> inline float32x4_t load(const ggml_fp16_t * p) {
-    return vec_xl(0, p);
+    float tmp[4];
+
+    for (int i = 0; i < 4; i++) {
+        tmp[i] = GGML_FP16_TO_FP32(x[i]);
+    }
+
+    return vec_xl(0, (const float *)(tmp));
 }
 template <> inline float32x4_t load(const float * p) {
     return vec_xl(0, p);