Add simple test to choose the right datatype based on the supported OUT_PROD datatype implementation.

zoq · zoq · commit ad4b2d76d32b · 2025-10-14T20:16:11.000-04:00
Signed-off-by: Marcus Edel &lt;marcus.edel@collabora.com&gt;
diff --git a/examples/training/finetune-lora.cpp b/examples/training/finetune-lora.cpp
@@ -2,6 +2,7 @@
 #include "common.h"
 #include "log.h"
 #include "llama.h"
+#include "ggml-backend.h"
 
 #include <cmath>
 #include <cstdio>
@@ -54,6 +55,72 @@ static uint32_t parse_lora_modules(const std::string& modules_str) {
     return target_modules;
 }
 
+static bool training_supports_out_prod_f16(const common_params & params) {
+    std::vector<ggml_backend_dev_t> devices;
+
+    if (!params.devices.empty()) {
+        devices.assign(params.devices.begin(), params.devices.end());
+    } else {
+        ggml_backend_dev_t gpu = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_GPU);
+        if (gpu) {
+            devices.push_back(gpu);
+        }
+    }
+
+    if (devices.empty()) {
+        return true;
+    }
+
+    constexpr int64_t ne0 = 4;
+    constexpr int64_t ne1 = 3;
+    constexpr int64_t k   = 2;
+
+    struct ggml_tensor src0 = {};
+    struct ggml_tensor src1 = {};
+    struct ggml_tensor dst  = {};
+
+    src0.type = GGML_TYPE_F16;
+    src1.type = GGML_TYPE_F32;
+    dst.type  = GGML_TYPE_F32;
+
+    src0.ne[0] = ne0; src0.ne[1] = k;   src0.ne[2] = 1; src0.ne[3] = 1;
+    src1.ne[0] = ne1; src1.ne[1] = k;   src1.ne[2] = 1; src1.ne[3] = 1;
+    dst.ne [0] = ne0; dst.ne [1] = ne1; dst.ne [2] = 1; dst.ne [3] = 1;
+
+    src0.nb[0] = sizeof(ggml_fp16_t);
+    src0.nb[1] = src0.nb[0] * ne0;
+    src0.nb[2] = src0.nb[1] * k;
+    src0.nb[3] = src0.nb[2] * 1;
+
+    src1.nb[0] = sizeof(float);
+    src1.nb[1] = src1.nb[0] * ne1;
+    src1.nb[2] = src1.nb[1] * k;
+    src1.nb[3] = src1.nb[2] * 1;
+
+    dst.nb[0] = sizeof(float);
+    dst.nb[1] = dst.nb[0] * ne0;
+    dst.nb[2] = dst.nb[1] * ne1;
+    dst.nb[3] = dst.nb[2] * 1;
+
+    dst.op     = GGML_OP_OUT_PROD;
+    dst.src[0] = &src0;
+    dst.src[1] = &src1;
+
+    for (ggml_backend_dev_t dev : devices) {
+        if (dev == nullptr) {
+            continue;
+        }
+        if (ggml_backend_dev_type(dev) != GGML_BACKEND_DEVICE_TYPE_GPU) {
+            continue;
+        }
+        if (!ggml_backend_dev_supports_op(dev, &dst)) {
+            return false;
+        }
+    }
+
+    return true;
+}
+
 static void print_lora_usage() {
     printf("\nLoRA Fine-tuning Parameters:\n");
     printf("  --lora-rank N              LoRA rank (default: 8, range: 1-512)\n");
@@ -124,13 +191,16 @@ int main(int argc, char ** argv) {
         LOG_INF("%s: force disabling memory mapping because it would result in-read-only pointers to the weights\n", __func__);
         params.use_mmap = false;
     }
-    if (params.cache_type_k != GGML_TYPE_F32) {
-        LOG_INF("%s: force changing k cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
-        params.cache_type_k = GGML_TYPE_F32;
-    }
-    if (params.cache_type_v != GGML_TYPE_F32) {
-        LOG_INF("%s: force changing v cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
-        params.cache_type_v = GGML_TYPE_F32;
+    const bool supports_out_prod_f16 = training_supports_out_prod_f16(params);
+    if (!supports_out_prod_f16) {
+        if (params.cache_type_k != GGML_TYPE_F32) {
+            LOG_INF("%s: force changing k cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
+            params.cache_type_k = GGML_TYPE_F32;
+        }
+        if (params.cache_type_v != GGML_TYPE_F32) {
+            LOG_INF("%s: force changing v cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
+            params.cache_type_v = GGML_TYPE_F32;
+        }
     }
 
     common_init();
diff --git a/examples/training/finetune.cpp b/examples/training/finetune.cpp
@@ -2,6 +2,7 @@
 #include "common.h"
 #include "log.h"
 #include "llama.h"
+#include "ggml-backend.h"
 
 #include <cmath>
 #include <cstdio>
@@ -13,6 +14,72 @@
 #pragma warning(disable: 4244 4267)  // possible loss of data
 #endif
 
+static bool training_supports_out_prod_f16(const common_params & params) {
+    std::vector<ggml_backend_dev_t> devices;
+
+    if (!params.devices.empty()) {
+        devices.assign(params.devices.begin(), params.devices.end());
+    } else {
+        ggml_backend_dev_t gpu = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_GPU);
+        if (gpu) {
+            devices.push_back(gpu);
+        }
+    }
+
+    if (devices.empty()) {
+        return true;
+    }
+
+    constexpr int64_t ne0 = 4;
+    constexpr int64_t ne1 = 3;
+    constexpr int64_t k   = 2;
+
+    struct ggml_tensor src0 = {};
+    struct ggml_tensor src1 = {};
+    struct ggml_tensor dst  = {};
+
+    src0.type = GGML_TYPE_F16;
+    src1.type = GGML_TYPE_F32;
+    dst.type  = GGML_TYPE_F32;
+
+    src0.ne[0] = ne0; src0.ne[1] = k;   src0.ne[2] = 1; src0.ne[3] = 1;
+    src1.ne[0] = ne1; src1.ne[1] = k;   src1.ne[2] = 1; src1.ne[3] = 1;
+    dst.ne [0] = ne0; dst.ne [1] = ne1; dst.ne [2] = 1; dst.ne [3] = 1;
+
+    src0.nb[0] = sizeof(ggml_fp16_t);
+    src0.nb[1] = src0.nb[0] * ne0;
+    src0.nb[2] = src0.nb[1] * k;
+    src0.nb[3] = src0.nb[2] * 1;
+
+    src1.nb[0] = sizeof(float);
+    src1.nb[1] = src1.nb[0] * ne1;
+    src1.nb[2] = src1.nb[1] * k;
+    src1.nb[3] = src1.nb[2] * 1;
+
+    dst.nb[0] = sizeof(float);
+    dst.nb[1] = dst.nb[0] * ne0;
+    dst.nb[2] = dst.nb[1] * ne1;
+    dst.nb[3] = dst.nb[2] * 1;
+
+    dst.op     = GGML_OP_OUT_PROD;
+    dst.src[0] = &src0;
+    dst.src[1] = &src1;
+
+    for (ggml_backend_dev_t dev : devices) {
+        if (dev == nullptr) {
+            continue;
+        }
+        if (ggml_backend_dev_type(dev) != GGML_BACKEND_DEVICE_TYPE_GPU) {
+            continue;
+        }
+        if (!ggml_backend_dev_supports_op(dev, &dst)) {
+            return false;
+        }
+    }
+
+    return true;
+}
+
 int main(int argc, char ** argv) {
     common_params params;
     params.escape = false;
@@ -26,13 +93,16 @@ int main(int argc, char ** argv) {
                 __func__);
         params.use_mmap = false;
     }
-    if (params.cache_type_k != GGML_TYPE_F32) {
-        LOG_INF("%s: force changing k cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
-        params.cache_type_k = GGML_TYPE_F32;
-    }
-    if (params.cache_type_v != GGML_TYPE_F32) {
-        LOG_INF("%s: force changing v cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
-        params.cache_type_v = GGML_TYPE_F32;
+    const bool supports_out_prod_f16 = training_supports_out_prod_f16(params);
+    if (!supports_out_prod_f16) {
+        if (params.cache_type_k != GGML_TYPE_F32) {
+            LOG_INF("%s: force changing k cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
+            params.cache_type_k = GGML_TYPE_F32;
+        }
+        if (params.cache_type_v != GGML_TYPE_F32) {
+            LOG_INF("%s: force changing v cache type to f32 due to a lack of f16 support for OUT_PROD\n", __func__);
+            params.cache_type_v = GGML_TYPE_F32;
+        }
     }
 
     common_init();
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -53,8 +53,4 @@ if (BUILD_SHARED_LIBS)
     set_target_properties(llama PROPERTIES POSITION_INDEPENDENT_CODE ON)
     target_compile_definitions(llama PRIVATE LLAMA_BUILD)
     target_compile_definitions(llama PUBLIC  LLAMA_SHARED)
-    if (ANDROID OR (UNIX AND CMAKE_CXX_COMPILER_ID MATCHES "Clang"))
-        message(STATUS "Linking llama with c++_shared for Android/Termux compatibility")
-        target_link_libraries(llama PUBLIC c++_shared)
-    endif()
 endif()