cont : prepare mem ranges for reuse + add ggml-metal-common.cpp

ggerganov · ggerganov · commit bed2175a4d88 · 2025-09-11T15:54:50.000+03:00
ggml-ci
diff --git a/ggml/src/ggml-metal/CMakeLists.txt b/ggml/src/ggml-metal/CMakeLists.txt
@@ -6,6 +6,7 @@ message(STATUS "Metal framework found")
 
 ggml_add_backend_library(ggml-metal
                          ggml-metal.m
+                         ggml-metal-common.cpp
                         )
 
 target_link_libraries(ggml-metal PRIVATE
diff --git a/ggml/src/ggml-metal/ggml-metal-common.cpp b/ggml/src/ggml-metal/ggml-metal-common.cpp
@@ -0,0 +1,131 @@
+#include "ggml-metal-common.h"
+
+#include "ggml-impl.h"
+
+#include <vector>
+
+// keep this separate from the public ggml_mem_range_params
+struct ggml_mem_range {
+    uint64_t p0; // being
+    uint64_t p1; // end
+
+    enum ggml_mem_range_type pt;
+};
+
+struct ggml_mem_ranges {
+    std::vector<struct ggml_mem_range> ranges;
+
+    int debug = 0;
+};
+
+struct ggml_mem_ranges * ggml_mem_ranges_init(int debug) {
+    auto * res = new struct ggml_mem_ranges;
+
+    res->debug = debug;
+
+    return res;
+}
+
+void ggml_mem_ranges_free(struct ggml_mem_ranges * mrs) {
+    delete mrs;
+}
+
+void ggml_mem_ranges_reset(struct ggml_mem_ranges * mrs) {
+    mrs->ranges.clear();
+}
+
+bool ggml_mem_ranges_add(struct ggml_mem_ranges * mrs, struct ggml_mem_range_params mrp) {
+    mrs->ranges.push_back({
+        /*.p0 =*/ mrp.p0,
+        /*.p1 =*/ mrp.p1,
+        /*.pt =*/ mrp.pt,
+    });
+
+    return true;
+}
+
+bool ggml_mem_ranges_add_src(struct ggml_mem_ranges * mrs, const struct ggml_tensor * node) {
+    GGML_ASSERT(node);
+
+    struct ggml_mem_range_params mrp = {
+        /*.p0 =*/ (uint64_t) node->data,
+        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
+        /*.pt =*/ MEM_RANGE_TYPE_SRC,
+    };
+
+    if (mrs->debug > 2) {
+        GGML_LOG_DEBUG("%s: add src range [%lld, %lld)\n", __func__, mrp.p0, mrp.p1);
+    }
+
+    return ggml_mem_ranges_add(mrs, mrp);
+}
+
+bool ggml_mem_ranges_add_dst(struct ggml_mem_ranges * mrs, const struct ggml_tensor * node) {
+    GGML_ASSERT(node);
+
+    struct ggml_mem_range_params mrp = {
+        /*.p0 =*/ (uint64_t) node->data,
+        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
+        /*.pt =*/ MEM_RANGE_TYPE_DST,
+    };
+
+    if (mrs->debug > 2) {
+        GGML_LOG_DEBUG("%s: add dst range [%lld, %lld)\n", __func__, mrp.p0, mrp.p1);
+    }
+
+    return ggml_mem_ranges_add(mrs, mrp);
+}
+
+bool ggml_mem_ranges_check(const struct ggml_mem_ranges * mrs, struct ggml_mem_range_params mrp) {
+    for (size_t i = 0; i < mrs->ranges.size(); i++) {
+        if (mrp.pt == MEM_RANGE_TYPE_SRC && mrs->ranges[i].pt == MEM_RANGE_TYPE_SRC) {
+            continue;
+        }
+
+        if (mrp.p0 < mrs->ranges[i].p1 && mrp.p1 > mrs->ranges[i].p0) {
+            return true;
+        }
+    }
+
+    return false;
+}
+
+bool ggml_mem_ranges_check_src(const struct ggml_mem_ranges * mrs, const struct ggml_tensor * node) {
+    GGML_ASSERT(node);
+
+    struct ggml_mem_range_params mrp = {
+        /*.p0 =*/ (uint64_t) node->data,
+        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
+        /*.pt =*/ MEM_RANGE_TYPE_SRC,
+    };
+
+    const bool res = ggml_mem_ranges_check(mrs, mrp);
+
+    if (res) {
+        if (mrs->debug > 2) {
+            GGML_LOG_DEBUG("%s: the src range [%lld, %lld) overlaps with a previous dst range\n", __func__, mrp.p0, mrp.p1);
+        }
+    }
+
+    return res;
+}
+
+bool ggml_mem_ranges_check_dst(const struct ggml_mem_ranges * mrs, const struct ggml_tensor * node) {
+    GGML_ASSERT(node);
+
+    struct ggml_mem_range_params mrp = {
+        /*.p0 =*/ (uint64_t) node->data,
+        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
+        /*.pt =*/ MEM_RANGE_TYPE_DST,
+    };
+
+    const bool res = ggml_mem_ranges_check(mrs, mrp);
+
+    if (res) {
+        if (mrs->debug > 2) {
+            GGML_LOG_DEBUG("%s: the dst range [%lld, %lld) overlaps with a previous src range\n", __func__, mrp.p0, mrp.p1);
+        }
+    }
+
+    return res;
+}
diff --git a/ggml/src/ggml-metal/ggml-metal-common.h b/ggml/src/ggml-metal/ggml-metal-common.h
@@ -0,0 +1,46 @@
+#pragma once
+
+#include <stdint.h>
+#include <stdbool.h>
+
+#ifdef __cplusplus
+extern "C" {
+#endif
+
+struct ggml_tensor;
+
+enum ggml_mem_range_type {
+    MEM_RANGE_TYPE_SRC = 0,
+    MEM_RANGE_TYPE_DST = 1,
+};
+
+struct ggml_mem_range_params {
+    uint64_t p0; // being
+    uint64_t p1; // end
+
+    enum ggml_mem_range_type pt;
+};
+
+struct ggml_mem_ranges;
+
+struct ggml_mem_ranges * ggml_mem_ranges_init(int debug);
+void ggml_mem_ranges_free(struct ggml_mem_ranges * mrs);
+
+void ggml_mem_ranges_reset(struct ggml_mem_ranges * mrs);
+
+bool ggml_mem_ranges_add(struct ggml_mem_ranges * mrs, struct ggml_mem_range_params mrp);
+
+bool ggml_mem_ranges_add_src(struct ggml_mem_ranges * mrs, const struct ggml_tensor * node);
+bool ggml_mem_ranges_add_dst(struct ggml_mem_ranges * mrs, const struct ggml_tensor * node);
+
+// return true if:
+// - new src range overlaps with any existing dst range
+// - new dst range overlaps with any existing range (src or dst)
+bool ggml_mem_ranges_check(const struct ggml_mem_ranges * mrs, struct ggml_mem_range_params mrp);
+
+bool ggml_mem_ranges_check_src(const struct ggml_mem_ranges * mrs, const struct ggml_tensor * node);
+bool ggml_mem_ranges_check_dst(const struct ggml_mem_ranges * mrs, const struct ggml_tensor * node);
+
+#ifdef __cplusplus
+}
+#endif
diff --git a/ggml/src/ggml-metal/ggml-metal.m b/ggml/src/ggml-metal/ggml-metal.m
@@ -3,6 +3,7 @@
 #import "ggml-impl.h"
 #import "ggml-backend-impl.h"
 #import "ggml-metal-impl.h"
+#import "ggml-metal-common.h"
 
 #import <Foundation/Foundation.h>
 
@@ -2075,42 +2076,20 @@ static bool ggml_metal_supports_op(const struct ggml_backend_metal_device_contex
     }
 }
 
-#define MEM_RANGE_MAX 128
-
 struct ggml_metal_encode_context {
     ggml_backend_t backend;
 
     id<MTLComputeCommandEncoder> encoder;
 
     struct ggml_metal_mem_pool * mem_pool;
 
-    int n_ranges;
-
-    struct mem_range {
-        uint64_t p0; // being
-        uint64_t p1; // end
-        int      pt; // type: 0 - src, 1 - dst
-    } ranges[MEM_RANGE_MAX];
-
-    int debug;
+    struct ggml_mem_ranges * mem_ranges;
 };
 
 static bool ggml_metal_encode_mem_ranges_reset(struct ggml_metal_encode_context * ctx) {
     [ctx->encoder memoryBarrierWithScope:MTLBarrierScopeBuffers];
 
-    ctx->n_ranges = 0;
-
-    return true;
-}
-
-static bool ggml_metal_encode_mem_ranges_add(struct ggml_metal_encode_context * ctx, struct mem_range r) {
-    if (ctx->n_ranges == MEM_RANGE_MAX) {
-        return false;
-    }
-
-    ctx->ranges[ctx->n_ranges] = r;
-
-    ctx->n_ranges++;
+    ggml_mem_ranges_reset(ctx->mem_ranges);
 
     return true;
 }
@@ -2120,92 +2099,27 @@ static bool ggml_metal_encode_mem_ranges_add_src(struct ggml_metal_encode_contex
         return true;
     }
 
-    struct mem_range r = {
-        /*.p0 =*/ (uint64_t) node->data,
-        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
-        /*.pt =*/ 0,
-    };
-
-    if (ctx->debug > 2) {
-        GGML_LOG_DEBUG("%s: add src range [%lld, %lld)\n", __func__, r.p0, r.p1);
-    }
-
-    return ggml_metal_encode_mem_ranges_add(ctx, r);
+    return ggml_mem_ranges_add_src(ctx->mem_ranges, node);
 }
 
 static bool ggml_metal_encode_mem_ranges_add_dst(struct ggml_metal_encode_context * ctx, const struct ggml_tensor * node) {
     GGML_ASSERT(node);
 
-    struct mem_range r = {
-        /*.p0 =*/ (uint64_t) node->data,
-        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
-        /*.pt =*/ 1,
-    };
-
-    if (ctx->debug > 2) {
-        GGML_LOG_DEBUG("%s: add dst range [%lld, %lld)\n", __func__, r.p0, r.p1);
-    }
-
-    return ggml_metal_encode_mem_ranges_add(ctx, r);
-}
-
-// return true if:
-// - new src range overlaps with any existing dst range
-// - new dst range overlaps with any existing range (src or dst)
-static bool ggml_metal_encode_mem_ranges_check(const struct ggml_metal_encode_context * ctx, struct mem_range r) {
-    for (int i = 0; i < ctx->n_ranges; i++) {
-        if (r.pt == 0 && ctx->ranges[i].pt == 0) {
-            continue;
-        }
-
-        if (r.p0 < ctx->ranges[i].p1 && r.p1 > ctx->ranges[i].p0) {
-            return true;
-        }
-    }
-
-    return false;
+    return ggml_mem_ranges_add_dst(ctx->mem_ranges, node);
 }
 
 static bool ggml_metal_encode_mem_ranges_check_src(const struct ggml_metal_encode_context * ctx, const struct ggml_tensor * node) {
     if (!node) {
         return false;
     }
 
-    struct mem_range r = {
-        /*.p0 =*/ (uint64_t) node->data,
-        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
-        /*.pt =*/ 0,
-    };
-
-    const bool res = ggml_metal_encode_mem_ranges_check(ctx, r);
-
-    if (res) {
-        if (ctx->debug > 2) {
-            GGML_LOG_DEBUG("%s: the src range [%lld, %lld) overlaps with a previous dst range\n", __func__, r.p0, r.p1);
-        }
-    }
-
-    return res;
+    return ggml_mem_ranges_check_src(ctx->mem_ranges, node);
 }
 
 static bool ggml_metal_encode_mem_ranges_check_dst(const struct ggml_metal_encode_context * ctx, const struct ggml_tensor * node) {
     GGML_ASSERT(node);
 
-    struct mem_range r = {
-        /*.p0 =*/ (uint64_t) node->data,
-        /*.p1 =*/ (uint64_t) node->data + ggml_nbytes(node),
-        /*.pt =*/ 1,
-    };
-
-    const bool res = ggml_metal_encode_mem_ranges_check(ctx, r);
-
-    if (res) {
-        if (ctx->debug > 2) {
-            GGML_LOG_DEBUG("%s: the dst range [%lld, %lld) overlaps with a previous src range\n", __func__, r.p0, r.p1);
-        }
-    }
-
-    return res;
+    return ggml_mem_ranges_check_dst(ctx->mem_ranges, node);
 }
 
 static int ggml_metal_encode_node(struct ggml_metal_encode_context * ctx_enc, int idx, int idx_end) {
@@ -6847,14 +6761,16 @@ static void ggml_backend_metal_set_n_cb(ggml_backend_t backend, int n_cb) {
         const bool should_capture = ctx->capture_next_compute;
 
         struct ggml_metal_encode_context ctx_enc = {
-            /*.backend  =*/ backend,
-            /*.encoder  =*/ encoder,
-            /*.mem_pool =*/ mem_pool,
-            /*.n_ranges =*/ 0,
-            /*.ranges   =*/ { 0 },
-            /*.debug    =*/ ctx_dev->debug_graph,
+            /*.backend    =*/ backend,
+            /*.encoder    =*/ encoder,
+            /*.mem_pool   =*/ mem_pool,
+            /*.mem_ranges =*/ NULL,
         };
 
+        if (ctx_dev->use_concurrency) {
+            ctx_enc.mem_ranges = ggml_mem_ranges_init(ctx_dev->debug_graph);
+        }
+
         for (int idx = node_start; idx < node_end;) {
             if (should_capture) {
                 [encoder pushDebugGroup:[NSString stringWithCString:ggml_op_desc(ggml_graph_node(ctx->gf, idx)) encoding:NSUTF8StringEncoding]];
@@ -6879,6 +6795,8 @@ static void ggml_backend_metal_set_n_cb(ggml_backend_t backend, int n_cb) {
 
         [encoder endEncoding];
 
+        ggml_mem_ranges_free(ctx_enc.mem_ranges);
+
         if (cb_idx < 2 || ctx->abort_callback == NULL) {
             [cmd_buf commit];
         }

Original file line number	Diff line number	Diff line change
`@@ -6,6 +6,7 @@ message(STATUS "Metal framework found")`
`6`	`6`
`7`	`7`	`ggml_add_backend_library(ggml-metal`
`8`	`8`	`ggml-metal.m`
	`9`	`+ ggml-metal-common.cpp`
`9`	`10`	`)`
`10`	`11`
`11`	`12`	`target_link_libraries(ggml-metal PRIVATE`