ggml-org · pockers21 · Apr 18, 2025 · Apr 18, 2025 · Apr 18, 2025 · Apr 18, 2025
diff --git a/ggml/include/ggml-backend.h b/ggml/include/ggml-backend.h
@@ -224,6 +224,7 @@ extern "C" {
     // = ggml_backend_dev_init(ggml_backend_dev_by_type(GPU) OR ggml_backend_dev_by_type(CPU), NULL)
     GGML_API ggml_backend_t ggml_backend_init_best(void);
 
+    GGML_API void  ggml_backend_set_size(ggml_backend_buffer_t buffer, size_t cur_size);
     // Load a backend from a dynamic library and register it
     GGML_API ggml_backend_reg_t ggml_backend_load(const char * path);
     // Unload a backend if loaded dynamically and unregister it

diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
@@ -536,6 +536,10 @@ struct ggml_backend_multi_buffer_context {
     size_t n_buffers;
 };
 
+void ggml_backend_set_size(ggml_backend_buffer_t buffer, size_t cur_size){
+    buffer->size = cur_size;
+}
+
 static void ggml_backend_multi_buffer_free_buffer(ggml_backend_buffer_t buffer) {
     ggml_backend_multi_buffer_context * ctx = (ggml_backend_multi_buffer_context *) buffer->context;
     for (size_t i = 0; i < ctx->n_buffers; i++) {

@@ -1548,6 +1548,7 @@ int32_t llama_context::output_reserve(int32_t n_outputs) {
     std::fill(output_ids.begin(), output_ids.end(), -1);
 
     ggml_backend_buffer_clear(buf_output.get(), 0);
+    ggml_backend_set_size(buf_output.get(), new_size);
 
     this->n_outputs     = 0;
     this->n_outputs_max = n_outputs_max;