ggml-org
diff --git a/‎examples/gguf-split/gguf-split.cpp‎
Lines changed: 20 additions & 2 deletions b/‎examples/gguf-split/gguf-split.cpp‎
Lines changed: 20 additions & 2 deletions
diff --git a/‎ggml/include/gguf.h‎
Lines changed: 3 additions & 0 deletions b/‎ggml/include/gguf.h‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎ggml/src/ggml-impl.h‎
Lines changed: 17 additions & 39 deletions b/‎ggml/src/ggml-impl.h‎
Lines changed: 17 additions & 39 deletions
diff --git a/‎ggml/src/ggml.c‎
Lines changed: 36 additions & 36 deletions b/‎ggml/src/ggml.c‎
Lines changed: 36 additions & 36 deletions
@@ -328,14 +328,20 @@ struct split_strategy {
                 const char * t_name = gguf_get_tensor_name(ctx_out, i);
                 struct ggml_tensor * t = ggml_get_tensor(ctx_meta, t_name);
                 auto n_bytes = ggml_nbytes(t);
+                auto n_elements = ggml_nelements(t) / ggml_blck_size(t->type);
                 read_buf.resize(n_bytes);
 
                 // calculate offset
                 auto i_tensor_in = gguf_find_tensor(ctx_gguf, t_name); // idx of tensor in the input file
                 auto offset = gguf_get_data_offset(ctx_gguf) + gguf_get_tensor_offset(ctx_gguf, i_tensor_in);
 
+                ggml_byteswap_t byteswap_func = nullptr;
+                if (gguf_needs_byteswap(ctx_gguf)) {
+                    byteswap_func = ggml_get_type_traits(t->type)->byteswap;
+                }
+
                 // copy tensor from input to output file
-                copy_file_to_file(f_input, fout, offset, n_bytes);
+                copy_file_to_file(f_input, fout, offset, n_bytes, n_elements, byteswap_func);
                 zeros(fout, GGML_PAD(n_bytes, GGUF_DEFAULT_ALIGNMENT) - n_bytes);
             }
 
@@ -346,13 +352,18 @@ struct split_strategy {
         }
     }
 
-    void copy_file_to_file(std::ifstream & f_in, std::ofstream & f_out, const size_t in_offset, const size_t len) {
+    void copy_file_to_file(std::ifstream & f_in, std::ofstream & f_out, const size_t in_offset, const size_t len, const size_t elements, ggml_byteswap_t byteswap_func) {
         // TODO: detect OS and use copy_file_range() here for better performance
         if (read_buf.size() < len) {
             read_buf.resize(len);
         }
         f_in.seekg(in_offset);
         f_in.read((char *)read_buf.data(), len);
+
+        if (byteswap_func != nullptr) {
+            byteswap_func(read_buf.data(), elements);
+        }
+
         f_out.write((const char *)read_buf.data(), len);
     }
 };
@@ -541,6 +552,13 @@ static void gguf_merge(const split_params & split_params) {
             f_input.seekg(offset);
             f_input.read((char *)read_data.data(), n_bytes);
 
+            if (gguf_needs_byteswap(ctx_gguf)) {
+                auto byteswap = ggml_get_type_traits(t->type)->byteswap;
+                if (byteswap != nullptr) {
+                    byteswap(read_data.data(), ggml_nelements(t) / ggml_blck_size(t->type));
+                }
+            }
+
             // write tensor data + padding
             fout.write((const char *)read_data.data(), n_bytes);
             zeros(fout, GGML_PAD(n_bytes, GGUF_DEFAULT_ALIGNMENT) - n_bytes);
 
@@ -197,6 +197,9 @@ extern "C" {
     // writes the meta data to pointer "data"
     GGML_API void   gguf_get_meta_data(const struct gguf_context * ctx, void * data);
 
+    // returns true if gguf file needs byteswapping when reading. byteswapping for writing not implemented
+    GGML_API bool gguf_needs_byteswap(const struct gguf_context * ctx);
+
 #ifdef  __cplusplus
 }
 #endif
@@ -29,11 +29,11 @@
 #endif
 
 #if defined(__gnu_linux__)
-#include <endian.h>
+#include <byteswap.h>
 #else // defined(__gnu_linux__)
-#define le64toh(x) (x)
-#define le32toh(x) (x)
-#define le16toh(x) (x)
+#define bswap_16(x) (x)
+#define bswap_32(x) (x)
+#define bswap_64(x) (x)
 #endif // defined(__gnu_linux__)
 
 #ifdef __cplusplus
@@ -562,68 +562,46 @@ static inline ggml_bf16_t ggml_compute_fp32_to_bf16(float s) {
 #define GGML_BF16_TO_FP32(x) ggml_compute_bf16_to_fp32(x)
 
 // endianness conversion
-#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__
-#define ggml_convert_from_le16(x) GGML_UNUSED(x)
-#define ggml_convert_from_le32(x) GGML_UNUSED(x)
-#define ggml_convert_from_le64(x) GGML_UNUSED(x)
-#elif __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
-static inline void ggml_convert_from_le16(void * value) {
-    *((uint16_t*)value) = le16toh(*((uint16_t*)value));
+static inline void ggml_bswap16(void * value) {
+    *((uint16_t*)value) = bswap_16(*((uint16_t*)value));
 }
 
-static inline void ggml_convert_from_le32(void * value) {
-    *((uint32_t*)value) = le32toh(*((uint32_t*)value));
+static inline void ggml_bswap32(void * value) {
+    *((uint32_t*)value) = bswap_32(*((uint32_t*)value));
 }
 
-static inline void ggml_convert_from_le64(void * value) {
-    *((uint64_t*)value) = le64toh(*((uint64_t*)value));
+static inline void ggml_bswap64(void * value) {
+    *((uint64_t*)value) = bswap_64(*((uint64_t*)value));
 }
-#else // __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
-#error Unexpected or undefined __BYTE_ORDER__
-#endif // __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
-
-#define ggml_convert_to_le16(x) ggml_convert_from_le16(x)
-#define ggml_convert_to_le32(x) ggml_convert_from_le32(x)
-#define ggml_convert_to_le64(x) ggml_convert_from_le64(x)
 
 #ifdef __cplusplus
 }
 #endif
 
 #ifdef __cplusplus
 #include <vector>
-
-// endianness conversion
-#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__
-#define ggml_convert_from_le(x) GGML_UNUSED(x)
-#elif __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
 #include <type_traits>
 
 template <typename T, std::enable_if_t<sizeof(T) == 1, int> = 0>
-static inline void ggml_convert_from_le(T * value)
+static inline void ggml_bswap(T * value)
 {
     GGML_UNUSED(value);
 }
 
 template <typename T, std::enable_if_t<sizeof(T) == 2, int> = 0>
-static inline void ggml_convert_from_le(T * value) {
-    ggml_convert_from_le16(value);
+static inline void ggml_bswap(T * value) {
+    ggml_bswap16(value);
 }
 
 template <typename T, std::enable_if_t<sizeof(T) == 4, int> = 0>
-static inline void ggml_convert_from_le(T * value) {
-    ggml_convert_from_le32(value);
+static inline void ggml_bswap(T * value) {
+    ggml_bswap32(value);
 }
 
 template <typename T, std::enable_if_t<sizeof(T) == 8, int> = 0>
-static inline void ggml_convert_from_le(T * value) {
-    ggml_convert_from_le64(value);
+static inline void ggml_bswap(T * value) {
+    ggml_bswap64(value);
 }
-#else // __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
-#error Unexpected or undefined __BYTE_ORDER__
-#endif // __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
-
-#define ggml_convert_to_le(x) ggml_convert_from_le(x)
 
 // expose GGUF internals for test code
 GGML_API size_t gguf_type_size(enum gguf_type type);
 
@@ -6564,179 +6564,179 @@ bool ggml_threadpool_params_match(const struct ggml_threadpool_params * p0, cons
 static void ggml_byteswap_i16(void * restrict buffer, size_t elements) {
     uint16_t *data_ptr = (uint16_t*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(data_ptr + i);
+        ggml_bswap16(data_ptr + i);
     }
 }
 
 static void ggml_byteswap_i32(void * restrict buffer, size_t elements) {
     uint32_t *data_ptr = (uint32_t*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le32(data_ptr + i);
+        ggml_bswap32(data_ptr + i);
     }
 }
 
 static void ggml_byteswap_i64(void * restrict buffer, size_t elements) {
     uint64_t *data_ptr = (uint64_t*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le64(data_ptr + i);
+        ggml_bswap64(data_ptr + i);
     }
 }
 
 static void ggml_byteswap_q4_0(void * restrict buffer, size_t elements) {
     block_q4_0 *data_ptr = (block_q4_0*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_q4_1(void * restrict buffer, size_t elements) {
     block_q4_1 *data_ptr = (block_q4_1*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].m));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].m));
     }
 }
 
 static void ggml_byteswap_q5_0(void * restrict buffer, size_t elements) {
     block_q5_0 *data_ptr = (block_q5_0*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_q5_1(void * restrict buffer, size_t elements) {
     block_q5_1 *data_ptr = (block_q5_1*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].m));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].m));
     }
 }
 
 static void ggml_byteswap_q8_0(void * restrict buffer, size_t elements) {
     block_q8_0 *data_ptr = (block_q8_0*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_q8_1(void * restrict buffer, size_t elements) {
     block_q8_1 *data_ptr = (block_q8_1*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].s));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].s));
     }
 }
 
 static void ggml_byteswap_q2_k(void * restrict buffer, size_t elements) {
     block_q2_K *data_ptr = (block_q2_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].dmin));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].dmin));
     }
 }
 
 static void ggml_byteswap_q3_k(void * restrict buffer, size_t elements) {
     block_q3_K *data_ptr = (block_q3_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_q4_k(void * restrict buffer, size_t elements) {
     block_q4_K *data_ptr = (block_q4_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].dmin));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].dmin));
     }
 }
 
 static void ggml_byteswap_q5_k(void * restrict buffer, size_t elements) {
     block_q5_K *data_ptr = (block_q5_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].dmin));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].dmin));
     }
 }
 
 static void ggml_byteswap_q6_k(void * restrict buffer, size_t elements) {
     block_q6_K *data_ptr = (block_q6_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_iq2_xxs(void * restrict buffer, size_t elements) {
     block_iq2_xxs *data_ptr = (block_iq2_xxs*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
         for (size_t j = 0; j < QK_K/8; ++j) {
-            ggml_convert_from_le16(&(data_ptr[i].qs[j]));
+            ggml_bswap16(&(data_ptr[i].qs[j]));
         }
     }
 }
 
 static void ggml_byteswap_iq2_xs(void * restrict buffer, size_t elements) {
     block_iq2_xs *data_ptr = (block_iq2_xs*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
         for (size_t j = 0; j < QK_K/8; ++j) {
-            ggml_convert_from_le16(&(data_ptr[i].qs[j]));
+            ggml_bswap16(&(data_ptr[i].qs[j]));
         }
     }
 }
 
 static void ggml_byteswap_iq3_xxs(void * restrict buffer, size_t elements) {
     block_iq3_xxs *data_ptr = (block_iq3_xxs*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_iq3_s(void * restrict buffer, size_t elements) {
     block_iq3_s *data_ptr = (block_iq3_s*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_iq2_s(void * restrict buffer, size_t elements) {
     block_iq2_s *data_ptr = (block_iq2_s*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_iq1_s(void * restrict buffer, size_t elements) {
     block_iq1_s *data_ptr = (block_iq1_s*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
         for (size_t j = 0; j < QK_K/32; ++j) {
-            ggml_convert_from_le16(&(data_ptr[i].qh[j]));
+            ggml_bswap16(&(data_ptr[i].qh[j]));
         }
     }
 }
 
 static void ggml_byteswap_iq4_nl(void * restrict buffer, size_t elements) {
     block_iq4_nl *data_ptr = (block_iq4_nl*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_iq4_xs(void * restrict buffer, size_t elements) {
     block_iq4_xs *data_ptr = (block_iq4_xs*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
-        ggml_convert_from_le16(&(data_ptr[i].scales_h));
+        ggml_bswap16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].scales_h));
     }
 }
 
 static void ggml_byteswap_q8_k(void * restrict buffer, size_t elements) {
     block_q8_K *data_ptr = (block_q8_K*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le32(&(data_ptr[i].d));
+        ggml_bswap32(&(data_ptr[i].d));
         for (size_t j = 0; j < QK_K/16; ++j) {
-            ggml_convert_from_le16(&(data_ptr[i].bsums[j]));
+            ggml_bswap16(&(data_ptr[i].bsums[j]));
         }
     }
 }
@@ -6762,13 +6762,13 @@ static void ggml_byteswap_q4_0_8x8(void * restrict buffer, size_t elements) {
 static void ggml_byteswap_tq1_0(void * restrict buffer, size_t elements) {
     block_tq1_0 *data_ptr = (block_tq1_0*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
 
 static void ggml_byteswap_tq2_0(void * restrict buffer, size_t elements) {
     block_tq2_0 *data_ptr = (block_tq2_0*) buffer;
     for (size_t i = 0; i < elements; ++i) {
-        ggml_convert_from_le16(&(data_ptr[i].d));
+        ggml_bswap16(&(data_ptr[i].d));
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -197,6 +197,9 @@ extern "C" {`
`197`	`197`	`// writes the meta data to pointer "data"`
`198`	`198`	`GGML_API void gguf_get_meta_data(const struct gguf_context * ctx, void * data);`
`199`	`199`
	`200`	`+ // returns true if gguf file needs byteswapping when reading. byteswapping for writing not implemented`
	`201`	`+ GGML_API bool gguf_needs_byteswap(const struct gguf_context * ctx);`
	`202`	`+`
`200`	`203`	`#ifdef __cplusplus`
`201`	`204`	`}`
`202`	`205`	`#endif`
Original file line number	Diff line number	Diff line change
`@@ -6564,179 +6564,179 @@ bool ggml_threadpool_params_match(const struct ggml_threadpool_params * p0, cons`
`6564`	`6564`	`static void ggml_byteswap_i16(void * restrict buffer, size_t elements) {`
`6565`	`6565`	`uint16_t data_ptr = (uint16_t) buffer;`
`6566`	`6566`	`for (size_t i = 0; i < elements; ++i) {`
`6567`		`- ggml_convert_from_le16(data_ptr + i);`
	`6567`	`+ ggml_bswap16(data_ptr + i);`
`6568`	`6568`	`}`
`6569`	`6569`	`}`
`6570`	`6570`
`6571`	`6571`	`static void ggml_byteswap_i32(void * restrict buffer, size_t elements) {`
`6572`	`6572`	`uint32_t data_ptr = (uint32_t) buffer;`
`6573`	`6573`	`for (size_t i = 0; i < elements; ++i) {`
`6574`		`- ggml_convert_from_le32(data_ptr + i);`
	`6574`	`+ ggml_bswap32(data_ptr + i);`
`6575`	`6575`	`}`
`6576`	`6576`	`}`
`6577`	`6577`
`6578`	`6578`	`static void ggml_byteswap_i64(void * restrict buffer, size_t elements) {`
`6579`	`6579`	`uint64_t data_ptr = (uint64_t) buffer;`
`6580`	`6580`	`for (size_t i = 0; i < elements; ++i) {`
`6581`		`- ggml_convert_from_le64(data_ptr + i);`
	`6581`	`+ ggml_bswap64(data_ptr + i);`
`6582`	`6582`	`}`
`6583`	`6583`	`}`
`6584`	`6584`
`6585`	`6585`	`static void ggml_byteswap_q4_0(void * restrict buffer, size_t elements) {`
`6586`	`6586`	`block_q4_0 data_ptr = (block_q4_0) buffer;`
`6587`	`6587`	`for (size_t i = 0; i < elements; ++i) {`
`6588`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6588`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6589`	`6589`	`}`
`6590`	`6590`	`}`
`6591`	`6591`
`6592`	`6592`	`static void ggml_byteswap_q4_1(void * restrict buffer, size_t elements) {`
`6593`	`6593`	`block_q4_1 data_ptr = (block_q4_1) buffer;`
`6594`	`6594`	`for (size_t i = 0; i < elements; ++i) {`
`6595`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6596`		`- ggml_convert_from_le16(&(data_ptr[i].m));`
	`6595`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6596`	`+ ggml_bswap16(&(data_ptr[i].m));`
`6597`	`6597`	`}`
`6598`	`6598`	`}`
`6599`	`6599`
`6600`	`6600`	`static void ggml_byteswap_q5_0(void * restrict buffer, size_t elements) {`
`6601`	`6601`	`block_q5_0 data_ptr = (block_q5_0) buffer;`
`6602`	`6602`	`for (size_t i = 0; i < elements; ++i) {`
`6603`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6603`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6604`	`6604`	`}`
`6605`	`6605`	`}`
`6606`	`6606`
`6607`	`6607`	`static void ggml_byteswap_q5_1(void * restrict buffer, size_t elements) {`
`6608`	`6608`	`block_q5_1 data_ptr = (block_q5_1) buffer;`
`6609`	`6609`	`for (size_t i = 0; i < elements; ++i) {`
`6610`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6611`		`- ggml_convert_from_le16(&(data_ptr[i].m));`
	`6610`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6611`	`+ ggml_bswap16(&(data_ptr[i].m));`
`6612`	`6612`	`}`
`6613`	`6613`	`}`
`6614`	`6614`
`6615`	`6615`	`static void ggml_byteswap_q8_0(void * restrict buffer, size_t elements) {`
`6616`	`6616`	`block_q8_0 data_ptr = (block_q8_0) buffer;`
`6617`	`6617`	`for (size_t i = 0; i < elements; ++i) {`
`6618`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6618`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6619`	`6619`	`}`
`6620`	`6620`	`}`
`6621`	`6621`
`6622`	`6622`	`static void ggml_byteswap_q8_1(void * restrict buffer, size_t elements) {`
`6623`	`6623`	`block_q8_1 data_ptr = (block_q8_1) buffer;`
`6624`	`6624`	`for (size_t i = 0; i < elements; ++i) {`
`6625`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6626`		`- ggml_convert_from_le16(&(data_ptr[i].s));`
	`6625`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6626`	`+ ggml_bswap16(&(data_ptr[i].s));`
`6627`	`6627`	`}`
`6628`	`6628`	`}`
`6629`	`6629`
`6630`	`6630`	`static void ggml_byteswap_q2_k(void * restrict buffer, size_t elements) {`
`6631`	`6631`	`block_q2_K data_ptr = (block_q2_K) buffer;`
`6632`	`6632`	`for (size_t i = 0; i < elements; ++i) {`
`6633`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6634`		`- ggml_convert_from_le16(&(data_ptr[i].dmin));`
	`6633`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6634`	`+ ggml_bswap16(&(data_ptr[i].dmin));`
`6635`	`6635`	`}`
`6636`	`6636`	`}`
`6637`	`6637`
`6638`	`6638`	`static void ggml_byteswap_q3_k(void * restrict buffer, size_t elements) {`
`6639`	`6639`	`block_q3_K data_ptr = (block_q3_K) buffer;`
`6640`	`6640`	`for (size_t i = 0; i < elements; ++i) {`
`6641`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6641`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6642`	`6642`	`}`
`6643`	`6643`	`}`
`6644`	`6644`
`6645`	`6645`	`static void ggml_byteswap_q4_k(void * restrict buffer, size_t elements) {`
`6646`	`6646`	`block_q4_K data_ptr = (block_q4_K) buffer;`
`6647`	`6647`	`for (size_t i = 0; i < elements; ++i) {`
`6648`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6649`		`- ggml_convert_from_le16(&(data_ptr[i].dmin));`
	`6648`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6649`	`+ ggml_bswap16(&(data_ptr[i].dmin));`
`6650`	`6650`	`}`
`6651`	`6651`	`}`
`6652`	`6652`
`6653`	`6653`	`static void ggml_byteswap_q5_k(void * restrict buffer, size_t elements) {`
`6654`	`6654`	`block_q5_K data_ptr = (block_q5_K) buffer;`
`6655`	`6655`	`for (size_t i = 0; i < elements; ++i) {`
`6656`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6657`		`- ggml_convert_from_le16(&(data_ptr[i].dmin));`
	`6656`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6657`	`+ ggml_bswap16(&(data_ptr[i].dmin));`
`6658`	`6658`	`}`
`6659`	`6659`	`}`
`6660`	`6660`
`6661`	`6661`	`static void ggml_byteswap_q6_k(void * restrict buffer, size_t elements) {`
`6662`	`6662`	`block_q6_K data_ptr = (block_q6_K) buffer;`
`6663`	`6663`	`for (size_t i = 0; i < elements; ++i) {`
`6664`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6664`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6665`	`6665`	`}`
`6666`	`6666`	`}`
`6667`	`6667`
`6668`	`6668`	`static void ggml_byteswap_iq2_xxs(void * restrict buffer, size_t elements) {`
`6669`	`6669`	`block_iq2_xxs data_ptr = (block_iq2_xxs) buffer;`
`6670`	`6670`	`for (size_t i = 0; i < elements; ++i) {`
`6671`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6671`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6672`	`6672`	`for (size_t j = 0; j < QK_K/8; ++j) {`
`6673`		`- ggml_convert_from_le16(&(data_ptr[i].qs[j]));`
	`6673`	`+ ggml_bswap16(&(data_ptr[i].qs[j]));`
`6674`	`6674`	`}`
`6675`	`6675`	`}`
`6676`	`6676`	`}`
`6677`	`6677`
`6678`	`6678`	`static void ggml_byteswap_iq2_xs(void * restrict buffer, size_t elements) {`
`6679`	`6679`	`block_iq2_xs data_ptr = (block_iq2_xs) buffer;`
`6680`	`6680`	`for (size_t i = 0; i < elements; ++i) {`
`6681`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6681`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6682`	`6682`	`for (size_t j = 0; j < QK_K/8; ++j) {`
`6683`		`- ggml_convert_from_le16(&(data_ptr[i].qs[j]));`
	`6683`	`+ ggml_bswap16(&(data_ptr[i].qs[j]));`
`6684`	`6684`	`}`
`6685`	`6685`	`}`
`6686`	`6686`	`}`
`6687`	`6687`
`6688`	`6688`	`static void ggml_byteswap_iq3_xxs(void * restrict buffer, size_t elements) {`
`6689`	`6689`	`block_iq3_xxs data_ptr = (block_iq3_xxs) buffer;`
`6690`	`6690`	`for (size_t i = 0; i < elements; ++i) {`
`6691`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6691`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6692`	`6692`	`}`
`6693`	`6693`	`}`
`6694`	`6694`
`6695`	`6695`	`static void ggml_byteswap_iq3_s(void * restrict buffer, size_t elements) {`
`6696`	`6696`	`block_iq3_s data_ptr = (block_iq3_s) buffer;`
`6697`	`6697`	`for (size_t i = 0; i < elements; ++i) {`
`6698`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6698`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6699`	`6699`	`}`
`6700`	`6700`	`}`
`6701`	`6701`
`6702`	`6702`	`static void ggml_byteswap_iq2_s(void * restrict buffer, size_t elements) {`
`6703`	`6703`	`block_iq2_s data_ptr = (block_iq2_s) buffer;`
`6704`	`6704`	`for (size_t i = 0; i < elements; ++i) {`
`6705`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6705`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6706`	`6706`	`}`
`6707`	`6707`	`}`
`6708`	`6708`
`6709`	`6709`	`static void ggml_byteswap_iq1_s(void * restrict buffer, size_t elements) {`
`6710`	`6710`	`block_iq1_s data_ptr = (block_iq1_s) buffer;`
`6711`	`6711`	`for (size_t i = 0; i < elements; ++i) {`
`6712`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6712`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6713`	`6713`	`for (size_t j = 0; j < QK_K/32; ++j) {`
`6714`		`- ggml_convert_from_le16(&(data_ptr[i].qh[j]));`
	`6714`	`+ ggml_bswap16(&(data_ptr[i].qh[j]));`
`6715`	`6715`	`}`
`6716`	`6716`	`}`
`6717`	`6717`	`}`
`6718`	`6718`
`6719`	`6719`	`static void ggml_byteswap_iq4_nl(void * restrict buffer, size_t elements) {`
`6720`	`6720`	`block_iq4_nl data_ptr = (block_iq4_nl) buffer;`
`6721`	`6721`	`for (size_t i = 0; i < elements; ++i) {`
`6722`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6722`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6723`	`6723`	`}`
`6724`	`6724`	`}`
`6725`	`6725`
`6726`	`6726`	`static void ggml_byteswap_iq4_xs(void * restrict buffer, size_t elements) {`
`6727`	`6727`	`block_iq4_xs data_ptr = (block_iq4_xs) buffer;`
`6728`	`6728`	`for (size_t i = 0; i < elements; ++i) {`
`6729`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
`6730`		`- ggml_convert_from_le16(&(data_ptr[i].scales_h));`
	`6729`	`+ ggml_bswap16(&(data_ptr[i].d));`
	`6730`	`+ ggml_bswap16(&(data_ptr[i].scales_h));`
`6731`	`6731`	`}`
`6732`	`6732`	`}`
`6733`	`6733`
`6734`	`6734`	`static void ggml_byteswap_q8_k(void * restrict buffer, size_t elements) {`
`6735`	`6735`	`block_q8_K data_ptr = (block_q8_K) buffer;`
`6736`	`6736`	`for (size_t i = 0; i < elements; ++i) {`
`6737`		`- ggml_convert_from_le32(&(data_ptr[i].d));`
	`6737`	`+ ggml_bswap32(&(data_ptr[i].d));`
`6738`	`6738`	`for (size_t j = 0; j < QK_K/16; ++j) {`
`6739`		`- ggml_convert_from_le16(&(data_ptr[i].bsums[j]));`
	`6739`	`+ ggml_bswap16(&(data_ptr[i].bsums[j]));`
`6740`	`6740`	`}`
`6741`	`6741`	`}`
`6742`	`6742`	`}`
`@@ -6762,13 +6762,13 @@ static void ggml_byteswap_q4_0_8x8(void * restrict buffer, size_t elements) {`
`6762`	`6762`	`static void ggml_byteswap_tq1_0(void * restrict buffer, size_t elements) {`
`6763`	`6763`	`block_tq1_0 data_ptr = (block_tq1_0) buffer;`
`6764`	`6764`	`for (size_t i = 0; i < elements; ++i) {`
`6765`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6765`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6766`	`6766`	`}`
`6767`	`6767`	`}`
`6768`	`6768`
`6769`	`6769`	`static void ggml_byteswap_tq2_0(void * restrict buffer, size_t elements) {`
`6770`	`6770`	`block_tq2_0 data_ptr = (block_tq2_0) buffer;`
`6771`	`6771`	`for (size_t i = 0; i < elements; ++i) {`
`6772`		`- ggml_convert_from_le16(&(data_ptr[i].d));`
	`6772`	`+ ggml_bswap16(&(data_ptr[i].d));`
`6773`	`6773`	`}`
`6774`	`6774`	`}`