make a smarter macro for tensor_data / tensor_set_data to handle both instance and pointer struct member accesses

dbsanfte · dbsanfte · commit 14bfbf8bcb7f · 2025-07-30T10:57:27.000+01:00
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
@@ -648,39 +648,62 @@ extern "C" {
     extern __thread int ggml_current_numa_node;
 #endif
 
-    static inline void * tensor_data(const struct ggml_tensor * tensor) {
-#ifdef GGML_NUMA_MIRROR
-        int n = ggml_current_numa_node;
-        if (n == -1)
-            n = 0;
-        return tensor->__data[n];
-#else
-        return tensor->data;
-#endif
-    }
+#define tensor_data(tensor) \
+    _Generic((tensor), \
+        struct ggml_tensor*: _tensor_data_ptr(tensor), \
+        const struct ggml_tensor*: _tensor_data_ptr(tensor), \
+        default: _tensor_data_instance(tensor) \
+    )
+
+#define tensor_set_data(tensor, value) \
+    _Generic((tensor), \
+        struct ggml_tensor*: _tensor_set_data_ptr(tensor, value), \
+        default: _tensor_set_data_instance(tensor, value) \
+    )
 
-    static inline void tensor_set_data(struct ggml_tensor * tensor, void * data) {
 #ifdef GGML_NUMA_MIRROR
-        if ((uint64_t)data >= \
-                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
-                GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT && \
-            (uint64_t)data < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
-                2 * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) {
-            data = (void*) ((uint64_t)data - GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT);
-        }
-        tensor->__data[0] = data;
-        if ((uint64_t)data >= \
-                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET && \
-            (uint64_t)data < \
-                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
-                GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) {
-            tensor->__data[1] = (void*) ((uint64_t)data + \
-                    GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT);
-        } else {
-            tensor->__data[1] = data;
-        }
+    #define _tensor_data_ptr(tensor) \
+        (ggml_current_numa_node == -1 ? (tensor)->__data[0] : (tensor)->__data[ggml_current_numa_node])
+
+    #define _tensor_data_instance(tensor) \
+        (ggml_current_numa_node == -1 ? (tensor).__data[0] : (tensor).__data[ggml_current_numa_node])
+
+    #define _tensor_set_data_ptr(tensor, data_ptr) \
+        do { \
+            void* data_ = (data_ptr); \
+            if ((uint64_t)data_ >= GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT && \
+                (uint64_t)data_ < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + 2 * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) { \
+                data_ = (void*)((uint64_t)data_ - GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT); \
+            } \
+            (tensor)->__data[0] = data_; \
+            if ((uint64_t)data_ >= GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET && \
+                (uint64_t)data_ < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) { \
+                (tensor)->__data[1] = (void*)((uint64_t)data_ + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT); \
+            } else { \
+                (tensor)->__data[1] = data_; \
+            } \
+        } while (0)
+
+    #define _tensor_set_data_instance(tensor, data_ptr) \
+        do { \
+            void* data_ = (data_ptr); \
+            if ((uint64_t)data_ >= GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT && \
+                (uint64_t)data_ < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + 2 * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) { \
+                data_ = (void*)((uint64_t)data_ - GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT); \
+            } \
+            (tensor).__data[0] = data_; \
+            if ((uint64_t)data_ >= GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET && \
+                (uint64_t)data_ < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) { \
+                (tensor).__data[1] = (void*)((uint64_t)data_ + GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT); \
+            } else { \
+                (tensor).__data[1] = data_; \
+            } \
+        } while (0)
 #else
-        tensor->data = data;
+    #define _tensor_data_ptr(tensor) ((tensor)->data)
+    #define _tensor_data_instance(tensor) ((tensor).data)
+    #define _tensor_set_data_ptr(tensor, value) ((tensor)->data = (value))
+    #define _tensor_set_data_instance(tensor, value) ((tensor).data = (value))
 #endif
     }
 
diff --git a/ggml/src/ggml-cpu/ops.cpp b/ggml/src/ggml-cpu/ops.cpp
@@ -6861,7 +6861,7 @@ static void ggml_call_mul_mat(ggml_type type, const ggml_compute_params * params
     src1.nb[1] = k * traits->type_size;
     src1.nb[2] = src1.nb[1];
     src1.nb[3] = src1.nb[2];
-    src1.data  = a;
+    tensor_set_data(src1, a);
 
     struct ggml_tensor src0 = {};
     src0.type  = type;
@@ -6873,7 +6873,7 @@ static void ggml_call_mul_mat(ggml_type type, const ggml_compute_params * params
     src0.nb[1] = k * traits->type_size;
     src0.nb[2] = src0.nb[1];
     src0.nb[3] = src0.nb[2];
-    src0.data  = b;
+    tensor_set_data(src0, b);
 
     struct ggml_tensor dst = {};
     dst.ne[0] = n;
@@ -6884,7 +6884,7 @@ static void ggml_call_mul_mat(ggml_type type, const ggml_compute_params * params
     dst.nb[1] = n * sizeof(float);
     dst.nb[2] = dst.nb[1];
     dst.nb[3] = dst.nb[2];
-    dst.data  = c;
+    tensor_set_data(dst, c);
     dst.src[0] = &src0;
     dst.src[1] = &src1;
 
@@ -7151,7 +7151,7 @@ static void ggml_compute_forward_conv_2d_dw_cwhn(
         const ggml_conv_2d_dw_params & p) {
 
     const int64_t c = p.channels;
-    const float * knl_data = (const float *)tensor_data(kernel)
+    const float * knl_data = (const float *)tensor_data(kernel);
 
     const int64_t rows_total = p.dst_h * p.batch;
     const int64_t rows_per_thread = (rows_total + params->nth - 1) / params->nth;
diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu
@@ -2164,7 +2164,7 @@ static void ggml_cuda_mul_mat_id(ggml_backend_cuda_context & ctx, ggml_tensor *
         src0_slice.nb[3]    = src0_slice.nb[2];
         src0_slice.op       = GGML_OP_VIEW;
         src0_slice.view_src = dst->src[0]; // non-const pointer to src0
-        src0_slice.data     = (char *) tensor_data(src0) + i02*nb02;
+        tensor_set_data(src0_slice, (char *) tensor_data(src0) + i02*nb02);
 
         ggml_tensor src1_slice;
         memset(&src1_slice, 0, sizeof(src1_slice));
@@ -2178,7 +2178,7 @@ static void ggml_cuda_mul_mat_id(ggml_backend_cuda_context & ctx, ggml_tensor *
         src1_slice.nb[1]  = src1_slice.ne[0] * src1_slice.nb[0];
         src1_slice.nb[2]  = src1_slice.ne[1] * src1_slice.nb[1];
         src1_slice.nb[3]  = src1_slice.ne[2] * src1_slice.nb[2];
-        src1_slice.data   = src1_data_cur;
+        tensor_set_data(src1_slice, src1_data_cur);
 
         ggml_tensor dst_slice;
         memset(&dst_slice, 0, sizeof(dst_slice));
@@ -2192,7 +2192,7 @@ static void ggml_cuda_mul_mat_id(ggml_backend_cuda_context & ctx, ggml_tensor *
         dst_slice.nb[1]  = dst_slice.ne[0] * dst_slice.nb[0];
         dst_slice.nb[2]  = dst_slice.ne[1] * dst_slice.nb[1];
         dst_slice.nb[3]  = dst_slice.ne[2] * dst_slice.nb[2];
-        dst_slice.data   = dst_data_cur;
+        tensor_set_data(dst_slice, dst_data_cur);
 
         ggml_cuda_mul_mat(ctx, &src0_slice, &src1_slice, &dst_slice);
         CUDA_CHECK(cudaGetLastError());
diff --git a/ggml/src/ggml-cuda/gla.cu b/ggml/src/ggml-cuda/gla.cu
@@ -62,7 +62,7 @@ static __global__ void gated_linear_attn_f32(const int B, const int T, const int
 }
 
 void ggml_cuda_op_gated_linear_attn(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
-    const float * k_d  = (const float *)tensor_data(dst->src[0])a;
+    const float * k_d  = (const float *)tensor_data(dst->src[0]);
     const float * v_d  = (const float *)tensor_data(dst->src[1]);
     const float * r_d  = (const float *)tensor_data(dst->src[2]);
     const float * td_d = (const float *)tensor_data(dst->src[3]);

Original file line number	Diff line number	Diff line change
`@@ -62,7 +62,7 @@ static __global__ void gated_linear_attn_f32(const int B, const int T, const int`
`62`	`62`	`}`
`63`	`63`
`64`	`64`	`void ggml_cuda_op_gated_linear_attn(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {`
`65`		`- const float * k_d = (const float *)tensor_data(dst->src[0])a;`
	`65`	`+ const float * k_d = (const float *)tensor_data(dst->src[0]);`
`66`	`66`	`const float * v_d = (const float *)tensor_data(dst->src[1]);`
`67`	`67`	`const float * r_d = (const float *)tensor_data(dst->src[2]);`
`68`	`68`	`const float * td_d = (const float *)tensor_data(dst->src[3]);`