WIP

JohannesGaessler · JohannesGaessler · commit ea3cab5ffbb8 · 2025-05-24T23:27:59.000+02:00
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
@@ -1596,14 +1596,14 @@ static enum ggml_status ggml_backend_sched_compute_splits(ggml_backend_sched_t s
         const int split_backend_id = split->backend_id;
         ggml_backend_t split_backend = sched->backends[split_backend_id];
 
-        bool execute_inputs = false;
+        std::vector<ggml_tensor *> active_inputs;
         // copy the input tensors to the split backend
         for (int j = 0; j < split->n_inputs; j++) {
             ggml_backend_t input_backend = ggml_backend_sched_get_tensor_backend(sched, split->inputs[j]);
             struct ggml_tensor * input = split->inputs[j];
             struct ggml_tensor * input_cpy = tensor_copy(input, split_backend_id, sched->cur_copy);
             if (input_cpy->op != GGML_OP_NONE) {
-                execute_inputs = true;
+                active_inputs.push_back(input_cpy);
                 continue;
             }
 
@@ -1635,12 +1635,12 @@ static enum ggml_status ggml_backend_sched_compute_splits(ggml_backend_sched_t s
                 }
             }
         }
-        if (execute_inputs) {
+        if (!active_inputs.empty()) {
             ggml_cgraph graph_inputs = {
                 /*.size             =*/ 0,
-                /*.n_nodes          =*/ split->n_inputs,
+                /*.n_nodes          =*/ int(active_inputs.size()),
                 /*.n_leafs          =*/ 0,
-                /*.nodes            =*/ split->inputs,
+                /*.nodes            =*/ active_inputs.data(),
                 /*.grads            =*/ NULL, // gradients would need visited_hash_set
                 /*.grad_accs        =*/ NULL,
                 /*.leafs            =*/ NULL,
diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu
@@ -2656,8 +2656,7 @@ static void evaluate_and_capture_cuda_graph(ggml_backend_cuda_context * cuda_ctx
                 }
 
 #ifndef NDEBUG
-                assert(node->buffer->buft == ggml_backend_cuda_buffer_type(cuda_ctx->device) ||
-                        ggml_backend_buft_is_cuda_split(node->buffer->buft));
+                assert(node->buffer->buft == ggml_backend_cuda_buffer_type(cuda_ctx->device));
                 for (int j = 0; j < GGML_MAX_SRC; j++) {
                     if (node->src[j] != nullptr) {
                         assert(node->src[j]->buffer);

Original file line number	Diff line number	Diff line change
`@@ -2656,8 +2656,7 @@ static void evaluate_and_capture_cuda_graph(ggml_backend_cuda_context * cuda_ctx`
`2656`	`2656`	`}`
`2657`	`2657`
`2658`	`2658`	`#ifndef NDEBUG`
`2659`		`- assert(node->buffer->buft == ggml_backend_cuda_buffer_type(cuda_ctx->device) \|\|`
`2660`		`- ggml_backend_buft_is_cuda_split(node->buffer->buft));`
	`2659`	`+ assert(node->buffer->buft == ggml_backend_cuda_buffer_type(cuda_ctx->device));`
`2661`	`2660`	`for (int j = 0; j < GGML_MAX_SRC; j++) {`
`2662`	`2661`	`if (node->src[j] != nullptr) {`
`2663`	`2662`	`assert(node->src[j]->buffer);`