dbsanfte
diff --git a/‎common/arg.cpp‎
Lines changed: 2 additions & 0 deletions b/‎common/arg.cpp‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎common/common.cpp‎
Lines changed: 3 additions & 3 deletions b/‎common/common.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/convert-llama2c-to-ggml/convert-llama2c-to-ggml.cpp‎
Lines changed: 2 additions & 2 deletions b/‎examples/convert-llama2c-to-ggml/convert-llama2c-to-ggml.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/eval-callback/eval-callback.cpp‎
Lines changed: 1 addition & 1 deletion b/‎examples/eval-callback/eval-callback.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gguf-hash/gguf-hash.cpp‎
Lines changed: 1 addition & 1 deletion b/‎examples/gguf-hash/gguf-hash.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gguf/gguf.cpp‎
Lines changed: 4 additions & 4 deletions b/‎examples/gguf/gguf.cpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎fix_tensor_data.py‎
Lines changed: 64 additions & 0 deletions b/‎fix_tensor_data.py‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎fix_tensor_data_conservative.py‎
Lines changed: 74 additions & 0 deletions b/‎fix_tensor_data_conservative.py‎
Lines changed: 74 additions & 0 deletions
diff --git a/‎ggml/CMakeLists.txt‎
Lines changed: 31 additions & 0 deletions b/‎ggml/CMakeLists.txt‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 79 additions & 0 deletions b/‎ggml/include/ggml.h‎
Lines changed: 79 additions & 0 deletions
@@ -2495,12 +2495,14 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
         "- distribute: spread execution evenly over all nodes\n"
         "- isolate: only spawn threads on CPUs on the node that execution started on\n"
         "- numactl: use the CPU map provided by numactl\n"
+        "- mirror: enable NUMA-aware model mirroring\n"
         "if run without this previously, it is recommended to drop the system page cache before using this\n"
         "see https://github.com/ggml-org/llama.cpp/issues/1437",
         [](common_params & params, const std::string & value) {
             /**/ if (value == "distribute" || value == "") { params.numa = GGML_NUMA_STRATEGY_DISTRIBUTE; }
             else if (value == "isolate") { params.numa = GGML_NUMA_STRATEGY_ISOLATE; }
             else if (value == "numactl") { params.numa = GGML_NUMA_STRATEGY_NUMACTL; }
+            else if (value == "mirror") { params.numa = GGML_NUMA_STRATEGY_MIRROR; }
             else { throw std::invalid_argument("invalid value"); }
         }
     ).set_env("LLAMA_ARG_NUMA"));
 
@@ -1489,7 +1489,7 @@ static common_control_vector_data common_control_vector_load_one(const common_co
         // extend if necessary - do not store data for layer 0 (it's not used)
         result.data.resize(std::max(result.data.size(), static_cast<size_t>(result.n_embd * layer_idx)), 0.0f);
 
-        const float * src = (const float *) tensor->data;
+        const float * src = (const float *) tensor_data(tensor);
         float * dst = result.data.data() + result.n_embd * (layer_idx - 1);  // layer 1 at [0]
         for (int j = 0; j < result.n_embd; j++) {
             dst[j] += src[j] * load_info.strength;  // allows multiple directions for same layer in same file
@@ -1548,8 +1548,8 @@ ggml_opt_dataset_t common_opt_dataset_init(struct llama_context * ctx, const std
     ggml_opt_dataset_t result = ggml_opt_dataset_init(
         GGML_TYPE_I32, GGML_TYPE_I32, ne_datapoint, ne_datapoint, ndata, /*ndata_shard =*/ 1);
 
-    llama_token * data   = (llama_token *) ggml_opt_dataset_data(result)->data;
-    llama_token * labels = (llama_token *) ggml_opt_dataset_labels(result)->data;
+    llama_token * data   = (llama_token *) tensor_data(ggml_opt_dataset_data(result));
+    llama_token * labels = (llama_token *) tensor_data(ggml_opt_dataset_labels(result));
 
     for (int64_t idata = 0; idata < ndata; ++idata) {
         memcpy(data   + idata*ne_datapoint, tokens.data() + idata*stride + 0, ne_datapoint*sizeof(llama_token));
 
@@ -408,12 +408,12 @@ static void init_model(struct my_llama_model * model) {
 }
 
 static float get_f32_2d(struct ggml_tensor * tensor, int64_t i0, int64_t i1) {
-    float * ptr = (float *) ((char *) tensor->data + i0*tensor->nb[0] + i1*tensor->nb[1]);
+    float * ptr = (float *) ((char *) tensor_data(tensor) + i0*tensor->nb[0] + i1*tensor->nb[1]);
     return *ptr;
 }
 
 static int32_t get_i32_2d(struct ggml_tensor * tensor, int64_t i0, int64_t i1) {
-    int32_t * ptr = (int32_t *) ((char *) tensor->data + i0*tensor->nb[0] + i1*tensor->nb[1]);
+    int32_t * ptr = (int32_t *) ((char *) tensor_data(tensor) + i0*tensor->nb[0] + i1*tensor->nb[1]);
     return *ptr;
 }
 
 
@@ -153,7 +153,7 @@ static bool ggml_debug(struct ggml_tensor * t, bool ask, void * user_data) {
     }
 
     if (!ggml_is_quantized(t->type)) {
-        uint8_t * data = is_host ? (uint8_t *) t->data : cb_data->data.data();
+        uint8_t * data = is_host ? (uint8_t *) tensor_data(t) : cb_data->data.data();
         ggml_print_tensor(data, t->type, t->ne, t->nb, 3);
     }
 
 
@@ -336,7 +336,7 @@ static hash_exit_code_t gguf_hash(const hash_params & hash_params) {
         const char * name = gguf_get_tensor_name(ctx, i);
         struct ggml_tensor * cur = ggml_get_tensor(ctx_data, name);
         auto n_bytes = ggml_nbytes(cur);
-        auto *raw_data = cur->data;
+        auto *raw_data = tensor_data(cur);
         const std::string tensor_layer_name = fname + ":" + name;
 
         if (hash_params.xxh64) {
 
@@ -63,7 +63,7 @@ static bool gguf_ex_write(const std::string & fname) {
         ggml_set_name(cur, name.c_str());
 
         {
-            float * data = (float *) cur->data;
+            float * data = (float *) tensor_data(cur);
             for (int j = 0; j < ggml_nelements(cur); ++j) {
                 data[j] = 100 + i;
             }
@@ -201,10 +201,10 @@ static bool gguf_ex_read_1(const std::string & fname, bool check_data) {
             struct ggml_tensor * cur = ggml_get_tensor(ctx_data, name);
 
             printf("%s: tensor[%d]: n_dims = %d, ne = (%d, %d, %d, %d), name = %s, data = %p\n",
-                __func__, i, ggml_n_dims(cur), int(cur->ne[0]), int(cur->ne[1]), int(cur->ne[2]), int(cur->ne[3]), cur->name, cur->data);
+                __func__, i, ggml_n_dims(cur), int(cur->ne[0]), int(cur->ne[1]), int(cur->ne[2]), int(cur->ne[3]), cur->name, tensor_data(cur));
 
             // print first 10 elements
-            const float * data = (const float *) cur->data;
+            const float * data = (const float *) tensor_data(cur);
 
             printf("%s data[:10] : ", name);
             for (int j = 0; j < MIN(10, ggml_nelements(cur)); ++j) {
@@ -214,7 +214,7 @@ static bool gguf_ex_read_1(const std::string & fname, bool check_data) {
 
             // check data
             if (check_data) {
-                const float * data = (const float *) cur->data;
+                const float * data = (const float *) tensor_data(cur);
                 for (int j = 0; j < ggml_nelements(cur); ++j) {
                     if (data[j] != 100 + i) {
                         fprintf(stderr, "%s: tensor[%d], data[%d]: found %f, expected %f\n", __func__, i, j, data[j], float(100 + i));
 
@@ -0,0 +1,64 @@
+#!/usr/bin/env python3
+
+import re
+import sys
+import os
+
+def fix_tensor_data_in_file(filepath):
+    """Fix tensor->data references in a file"""
+    try:
+        with open(filepath, 'r') as f:
+            content = f.read()
+        
+        original_content = content
+        
+        # Fix simple data access patterns (but not assignments)
+        # Pattern: something->data (but not = something->data)
+        content = re.sub(r'(\w+)->data(?!\s*=)', r'tensor_data(\1)', content)
+        
+        # Fix assignments: tensor->data = value -> tensor_set_data(tensor, value)
+        content = re.sub(r'(\w+)->data\s*=\s*([^;]+);', r'tensor_set_data(\1, \2);', content)
+        
+        # Fix GGML_ASSERT patterns
+        content = re.sub(r'GGML_ASSERT\(tensor_data\(([^)]+)\)\s*!=\s*NULL', r'GGML_ASSERT(tensor_data(\1) != NULL', content)
+        content = re.sub(r'GGML_ASSERT\(tensor_data\(([^)]+)\)\s*==\s*NULL', r'GGML_ASSERT(tensor_data(\1) == NULL', content)
+        content = re.sub(r'GGML_ASSERT\(tensor_data\(([^)]+)\)', r'GGML_ASSERT(tensor_data(\1)', content)
+        
+        # Fix memcpy patterns
+        content = re.sub(r'memcpy\(tensor_data\(([^)]+)\),', r'memcpy(tensor_data(\1),', content)
+        content = re.sub(r'memcpy\(([^,]+),\s*tensor_data\(([^)]+)\),', r'memcpy(\1, tensor_data(\2),', content)
+        
+        if content != original_content:
+            with open(filepath, 'w') as f:
+                f.write(content)
+            print(f"Fixed: {filepath}")
+            return True
+        else:
+            print(f"No changes: {filepath}")
+            return False
+            
+    except Exception as e:
+        print(f"Error processing {filepath}: {e}")
+        return False
+
+def main():
+    if len(sys.argv) != 2:
+        print("Usage: python fix_tensor_data.py <file_or_directory>")
+        sys.exit(1)
+    
+    target = sys.argv[1]
+    
+    if os.path.isfile(target):
+        fix_tensor_data_in_file(target)
+    elif os.path.isdir(target):
+        for root, dirs, files in os.walk(target):
+            for file in files:
+                if file.endswith(('.c', '.cpp', '.h', '.hpp')):
+                    filepath = os.path.join(root, file)
+                    fix_tensor_data_in_file(filepath)
+    else:
+        print(f"Error: {target} is not a valid file or directory")
+        sys.exit(1)
+
+if __name__ == "__main__":
+    main()
@@ -0,0 +1,74 @@
+#!/usr/bin/env python3
+
+import re
+import sys
+import os
+
+def fix_tensor_data_in_file(filepath):
+    """Fix tensor->data references in a file, but only for actual tensor variables"""
+    try:
+        with open(filepath, 'r') as f:
+            content = f.read()
+        
+        original_content = content
+        
+        # More conservative approach - only fix patterns where we're confident it's a tensor
+        # Look for common tensor variable names and patterns
+        
+        # Fix: tensor->data -> tensor_data(tensor) 
+        content = re.sub(r'\btensor->data\b(?!\s*=)', r'tensor_data(tensor)', content)
+        content = re.sub(r'\bsrc->data\b(?!\s*=)', r'tensor_data(src)', content)
+        content = re.sub(r'\bdst->data\b(?!\s*=)', r'tensor_data(dst)', content)
+        content = re.sub(r'\bsrc0->data\b(?!\s*=)', r'tensor_data(src0)', content)
+        content = re.sub(r'\bsrc1->data\b(?!\s*=)', r'tensor_data(src1)', content)
+        content = re.sub(r'\bnode->data\b(?!\s*=)', r'tensor_data(node)', content)
+        content = re.sub(r'\bt->data\b(?!\s*=)', r'tensor_data(t)', content)
+        content = re.sub(r'\bleaf->data\b(?!\s*=)', r'tensor_data(leaf)', content)
+        content = re.sub(r'\bview_src->data\b(?!\s*=)', r'tensor_data(view_src)', content)
+        content = re.sub(r'\bgrad_acc->data\b(?!\s*=)', r'tensor_data(grad_acc)', content)
+        content = re.sub(r'\binput->data\b(?!\s*=)', r'tensor_data(input)', content)
+        content = re.sub(r'\bparent->data\b(?!\s*=)', r'tensor_data(parent)', content)
+        content = re.sub(r'\bids->data\b(?!\s*=)', r'tensor_data(ids)', content)
+        
+        # Fix assignments: tensor->data = value -> tensor_set_data(tensor, value)
+        content = re.sub(r'\btensor->data\s*=\s*([^;]+);', r'tensor_set_data(tensor, \1);', content)
+        content = re.sub(r'\bsrc->data\s*=\s*([^;]+);', r'tensor_set_data(src, \1);', content)
+        content = re.sub(r'\bdst->data\s*=\s*([^;]+);', r'tensor_set_data(dst, \1);', content)
+        content = re.sub(r'\bnode->data\s*=\s*([^;]+);', r'tensor_set_data(node, \1);', content)
+        content = re.sub(r'\bt->data\s*=\s*([^;]+);', r'tensor_set_data(t, \1);', content)
+        content = re.sub(r'\bnew_tensor->data\s*=\s*([^;]+);', r'tensor_set_data(new_tensor, \1);', content)
+        
+        if content != original_content:
+            with open(filepath, 'w') as f:
+                f.write(content)
+            print(f"Fixed: {filepath}")
+            return True
+        else:
+            print(f"No changes: {filepath}")
+            return False
+            
+    except Exception as e:
+        print(f"Error processing {filepath}: {e}")
+        return False
+
+def main():
+    if len(sys.argv) != 2:
+        print("Usage: python fix_tensor_data.py <file_or_directory>")
+        sys.exit(1)
+    
+    target = sys.argv[1]
+    
+    if os.path.isfile(target):
+        fix_tensor_data_in_file(target)
+    elif os.path.isdir(target):
+        for root, dirs, files in os.walk(target):
+            for file in files:
+                if file.endswith(('.c', '.cpp', '.h', '.hpp')):
+                    filepath = os.path.join(root, file)
+                    fix_tensor_data_in_file(filepath)
+    else:
+        print(f"Error: {target} is not a valid file or directory")
+        sys.exit(1)
+
+if __name__ == "__main__":
+    main()
@@ -198,6 +198,8 @@ set   (GGML_METAL_MACOSX_VERSION_MIN "" CACHE STRING
                                             "ggml: metal minimum macOS version")
 set   (GGML_METAL_STD "" CACHE STRING       "ggml: metal standard version (-std flag)")
 option(GGML_OPENMP                          "ggml: use OpenMP"                                ON)
+option(GGML_NUMA_MIRROR                     "ggml: support numa aware tensor data"           OFF)
+option(GGML_NUMA                            "ggml: support numa aware tensor data (synonym for GGML_NUMA_MIRROR)" OFF)
 option(GGML_RPC                             "ggml: use RPC"                                   OFF)
 option(GGML_SYCL                            "ggml: use SYCL"                                  OFF)
 option(GGML_SYCL_F16                        "ggml: use 16 bit floats for sycl calculations"   OFF)
@@ -378,6 +380,35 @@ install(FILES ${CMAKE_CURRENT_BINARY_DIR}/ggml-config.cmake
               ${CMAKE_CURRENT_BINARY_DIR}/ggml-version.cmake
         DESTINATION ${CMAKE_INSTALL_LIBDIR}/cmake/ggml)
 
+# Make GGML_NUMA and GGML_NUMA_MIRROR synonyms
+if (GGML_NUMA AND NOT GGML_NUMA_MIRROR)
+    set(GGML_NUMA_MIRROR ON)
+endif()
+if (GGML_NUMA_MIRROR AND NOT GGML_NUMA)
+    set(GGML_NUMA ON)
+endif()
+
+if (GGML_NUMA_MIRROR)
+    find_library(NUMA_LIBRARY NAMES numa)
+    if (NOT NUMA_LIBRARY)
+        message(FATAL_ERROR "libnuma is not found")
+    endif()
+    message(STATUS "libnuma: ${NUMA_LIBRARY}")
+
+    message(STATUS
+            "-----------------\n"
+            "Enabling GGML_NUMA_MIRROR (GGML_NUMA compatibility enabled)\n"
+            "Uses numa_alloc_onnode() for reliable NUMA-aware memory allocation")
+    message(STATUS
+            "-----------------")
+
+    foreach(lib "ggml" "ggml-base")
+        target_compile_definitions(${lib} PUBLIC GGML_NUMA_MIRROR)
+        target_compile_definitions(${lib} PUBLIC GGML_NUMA)
+        target_link_libraries(${lib} PUBLIC ${NUMA_LIBRARY})
+    endforeach()
+endif()
+
 if (MSVC)
     set(MSVC_WARNING_FLAGS
         /wd4005  # Macro redefinition
 
@@ -221,6 +221,13 @@
 #define GGML_MAX_N_THREADS      512
 #define GGML_MAX_OP_PARAMS      64
 
+#ifdef GGML_NUMA_MIRROR
+    // maximum number of NUMA nodes for tensor data mirroring
+    #define GGML_NUMA_MAX_NODES     8
+    #include <numaif.h>
+    #include <string.h>
+#endif
+
 #ifndef GGML_MAX_NAME
 #   define GGML_MAX_NAME        64
 #endif
@@ -645,17 +652,86 @@ extern "C" {
         struct ggml_tensor * view_src;
         size_t               view_offs;
 
+#ifdef GGML_NUMA_MIRROR
+        union {
+        #ifdef __NVCC__
+            void * data;
+        #endif
+            void * __data[GGML_NUMA_MAX_NODES];
+        };
+#else
         void * data;
+#endif
 
         char name[GGML_MAX_NAME];
 
         void * extra; // extra things e.g. for ggml-cuda.cu
 
+#ifdef GGML_NUMA_MIRROR
+        char padding[12]; // Adjusted for expanded __data array
+#else
         char padding[8];
+#endif
     };
 
     static const size_t GGML_TENSOR_SIZE = sizeof(struct ggml_tensor);
 
+    // Tensor data accessor functions for NUMA compatibility
+    
+#ifdef GGML_NUMA_MIRROR
+    // External thread-local variable set by NUMA coordinator
+    extern __thread int ggml_current_numa_node;
+    
+    static inline void * tensor_data(const struct ggml_tensor * tensor) {
+        int numa_node = ggml_current_numa_node;
+        
+        if (numa_node >= 0 && numa_node < GGML_NUMA_MAX_NODES 
+            && tensor->__data[numa_node] != NULL) {
+            return tensor->__data[numa_node];
+        }
+        
+        return tensor->__data[0];
+    }
+
+    static inline void tensor_set_data(struct ggml_tensor * tensor, void * data) {
+        tensor->__data[0] = data;
+    }
+
+#ifdef GGML_NUMA_MIRROR
+    // Model loading specific function - bypasses normal tensor_set_data logic
+    static inline void tensor_set_data_with_numa_mirrors(struct ggml_tensor * tensor, 
+                                                        void * primary_data,
+                                                        void ** numa_node_data,
+                                                        int numa_node_count) {
+        // Set primary data (node 0)
+        tensor->__data[0] = primary_data;
+        
+        // Set NUMA mirrors for other nodes
+        for (int node = 1; node < numa_node_count && node < GGML_NUMA_MAX_NODES; node++) {
+            tensor->__data[node] = numa_node_data[node];
+        }
+        
+        // Clear remaining slots
+        for (int node = numa_node_count; node < GGML_NUMA_MAX_NODES; node++) {
+            tensor->__data[node] = NULL;
+        }
+        
+#ifdef GGML_NUMA_DEBUG_VERBOSE
+        printf("✅ NUMA SETUP COMPLETE: %s with %d mirrors\n", tensor->name, numa_node_count - 1);
+        fflush(stdout);
+#endif
+    }
+#endif
+#else
+    static inline void * tensor_data(const struct ggml_tensor * tensor) {
+        return tensor->data;
+    }
+
+    static inline void tensor_set_data(struct ggml_tensor * tensor, void * data) {
+        tensor->data = data;
+    }
+#endif
+
     // Abort callback
     // If not NULL, called before ggml computation
     // If it returns true, the computation is aborted
@@ -2541,6 +2617,9 @@ extern "C" {
     GGML_API void                          ggml_threadpool_params_init   (struct ggml_threadpool_params * p, int n_threads);
     GGML_API bool                          ggml_threadpool_params_match  (const struct ggml_threadpool_params * p0, const struct ggml_threadpool_params * p1);
 
+    // NUMA functions
+    GGML_API int                           ggml_numa_node_count(void);
+
 #ifdef  __cplusplus
 }
 #endif
Original file line number	Diff line number	Diff line change
`@@ -408,12 +408,12 @@ static void init_model(struct my_llama_model * model) {`
`408`	`408`	`}`
`409`	`409`
`410`	`410`	`static float get_f32_2d(struct ggml_tensor * tensor, int64_t i0, int64_t i1) {`
`411`		`- float * ptr = (float ) ((char ) tensor->data + i0tensor->nb[0] + i1tensor->nb[1]);`
	`411`	`+ float * ptr = (float ) ((char ) tensor_data(tensor) + i0tensor->nb[0] + i1tensor->nb[1]);`
`412`	`412`	`return *ptr;`
`413`	`413`	`}`
`414`	`414`
`415`	`415`	`static int32_t get_i32_2d(struct ggml_tensor * tensor, int64_t i0, int64_t i1) {`
`416`		`- int32_t * ptr = (int32_t ) ((char ) tensor->data + i0tensor->nb[0] + i1tensor->nb[1]);`
	`416`	`+ int32_t * ptr = (int32_t ) ((char ) tensor_data(tensor) + i0tensor->nb[0] + i1tensor->nb[1]);`
`417`	`417`	`return *ptr;`
`418`	`418`	`}`
`419`	`419`
Original file line number	Diff line number	Diff line change
`@@ -153,7 +153,7 @@ static bool ggml_debug(struct ggml_tensor * t, bool ask, void * user_data) {`
`153`	`153`	`}`
`154`	`154`
`155`	`155`	`if (!ggml_is_quantized(t->type)) {`
`156`		`- uint8_t * data = is_host ? (uint8_t *) t->data : cb_data->data.data();`
	`156`	`+ uint8_t * data = is_host ? (uint8_t *) tensor_data(t) : cb_data->data.data();`
`157`	`157`	`ggml_print_tensor(data, t->type, t->ne, t->nb, 3);`
`158`	`158`	`}`
`159`	`159`