[refactor] Load all data

jesusmb1995 · jesusmb1995 · commit da6e20c6d638 · 2025-08-20T16:59:57.000+02:00
- The function now takes size_data instead of the member attribute.
- Sanity checks of file pointer handles

These two changes will be useful when calling `load_all_data` multiple times during incremental shard load.
diff --git a/src/llama-model-loader.cpp b/src/llama-model-loader.cpp
@@ -904,12 +904,9 @@ void llama_model_loader::load_data_for(struct ggml_tensor * cur) const {
     }
 }
 
-bool llama_model_loader::load_all_data(
-        struct ggml_context * ctx,
-        llama_buf_map & bufs,
-        llama_mlocks * lmlocks,
-        llama_progress_callback progress_callback,
-        void * progress_callback_user_data) {
+bool llama_model_loader::load_all_data(size_t size_data, struct ggml_context * ctx, llama_buf_map & bufs,
+                                       llama_mlocks * lmlocks, llama_progress_callback progress_callback,
+                                       void * progress_callback_user_data) {
     GGML_ASSERT(size_data != 0 && "call init_mappings() first");
 
     std::vector<no_init<uint8_t>> read_buf;
@@ -1049,6 +1046,12 @@ bool llama_model_loader::load_all_data(
             }
         } else {
             const auto & file = files.at(weight->idx);
+            if (file == nullptr) {
+                throw std::runtime_error(
+                    format("file not found for tensor '%s' at split-index %d", ggml_get_name(cur), weight->idx));
+            }
+            LLAMA_LOG_CMAKE_DEBUG("%s: uploading tensor %s from file at split-index %d\n", __func__, ggml_get_name(cur),
+                                  weight->idx);
             if (ggml_backend_buffer_is_host(cur->buffer)) {
                 file->seek(weight->offs, SEEK_SET);
                 file->read_raw(cur->data, n_size);
diff --git a/src/llama-model-loader.h b/src/llama-model-loader.h
@@ -158,12 +158,8 @@ struct llama_model_loader {
     void load_data_for(struct ggml_tensor * cur) const;
 
     // Returns false if cancelled by progress_callback
-    bool load_all_data(
-            struct ggml_context * ctx,
-            llama_buf_map & bufs,
-            llama_mlocks * lmlocks,
-            llama_progress_callback progress_callback,
-            void * progress_callback_user_data);
+    bool load_all_data(size_t size_data, struct ggml_context * ctx, llama_buf_map & bufs, llama_mlocks * lmlocks,
+                       llama_progress_callback progress_callback, void * progress_callback_user_data);
 
     std::string ftype_name() const;
 
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -4394,7 +4394,7 @@ bool llama_model::create_backend_buffers(std::size_t
     for (auto & it : ctx_bufs) {
         ggml_context * ctx = it.first;
         auto & bufs = it.second;
-        if (!ml.load_all_data(ctx, bufs, use_mlock ? &pimpl->mlock_mmaps : NULL, params.progress_callback, params.progress_callback_user_data)) {
+        if (!ml.load_all_data(size_data, ctx, bufs, use_mlock ? &pimpl->mlock_mmaps : NULL, params.progress_callback, params.progress_callback_user_data)) {
             return false;
         }
     }

Original file line number	Diff line number	Diff line change
`@@ -4394,7 +4394,7 @@ bool llama_model::create_backend_buffers(std::size_t`
`4394`	`4394`	`for (auto & it : ctx_bufs) {`
`4395`	`4395`	`ggml_context * ctx = it.first;`
`4396`	`4396`	`auto & bufs = it.second;`
`4397`		`- if (!ml.load_all_data(ctx, bufs, use_mlock ? &pimpl->mlock_mmaps : NULL, params.progress_callback, params.progress_callback_user_data)) {`
	`4397`	`+ if (!ml.load_all_data(size_data, ctx, bufs, use_mlock ? &pimpl->mlock_mmaps : NULL, params.progress_callback, params.progress_callback_user_data)) {`
`4398`	`4398`	`return false;`
`4399`	`4399`	`}`
`4400`	`4400`	`}`