ggml-org
diff --git a/‎src/llama-adapter.cpp‎
Lines changed: 1 addition & 0 deletions b/‎src/llama-adapter.cpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/llama-context.cpp‎
Lines changed: 3 additions & 1 deletion b/‎src/llama-context.cpp‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/llama-kv-cache.cpp‎
Lines changed: 1 addition & 1 deletion b/‎src/llama-kv-cache.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -1,5 +1,6 @@
 #include "llama-adapter.h"
 
+#include "llama-mmap.h"
 #include "llama-model.h"
 
 #include <algorithm>
 
@@ -1,5 +1,7 @@
 #include "llama-context.h"
 
+#include "llama-mmap.h"
+
 #include <cassert>
 #include <cmath>
 #include <cstring>
@@ -504,7 +506,7 @@ size_t llama_output_reserve(struct llama_context & lctx, size_t n_outputs) {
 
         auto * buft = ggml_backend_cpu_buffer_type();
         // try to use the host buffer of the device where the output tensor is allocated for faster transfer to system memory
-        auto * output_dev = lctx.model.dev_output.dev;
+        auto * output_dev = lctx.model.dev_output();
         auto * output_dev_host_buft = output_dev ? ggml_backend_dev_host_buffer_type(output_dev) : nullptr;
         if (output_dev_host_buft) {
             buft = output_dev_host_buft;
 
@@ -79,7 +79,7 @@ bool llama_kv_cache_init(
 
         ggml_backend_buffer_type_t buft;
         if (offload) {
-            auto * dev = model.dev_layer.at(i).dev;
+            auto * dev = model.dev_layer(i);
             buft = ggml_backend_dev_buffer_type(dev);
         } else {
             buft = ggml_backend_cpu_buffer_type();