Avoid negative bools in library.

hjc4869 · hjc4869 · commit 31e19202a77b · 2025-05-09T19:07:46.000+08:00
diff --git a/common/common.cpp b/common/common.cpp
@@ -1113,7 +1113,7 @@ struct llama_context_params common_context_params_to_llama(const common_params &
     cparams.offload_kqv       = !params.no_kv_offload;
     cparams.flash_attn        = params.flash_attn;
     cparams.no_perf           = params.no_perf;
-    cparams.disable_op_offload= params.disable_op_offload;
+    cparams.op_offload        = !params.disable_op_offload;
 
     if (params.reranking) {
         cparams.embeddings    = true;
diff --git a/ggml/include/ggml-backend.h b/ggml/include/ggml-backend.h
@@ -289,7 +289,7 @@ extern "C" {
     typedef bool (*ggml_backend_sched_eval_callback)(struct ggml_tensor * t, bool ask, void * user_data);
 
     // Initialize a backend scheduler, backends with low index are given priority over backends with high index
-    GGML_API ggml_backend_sched_t ggml_backend_sched_new(ggml_backend_t * backends, ggml_backend_buffer_type_t * bufts, int n_backends, size_t graph_size, bool parallel, bool disable_op_offload);
+    GGML_API ggml_backend_sched_t ggml_backend_sched_new(ggml_backend_t * backends, ggml_backend_buffer_type_t * bufts, int n_backends, size_t graph_size, bool parallel, bool op_offload);
     GGML_API void                 ggml_backend_sched_free(ggml_backend_sched_t sched);
 
     // Initialize backend buffers from a measure graph
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
@@ -674,7 +674,7 @@ struct ggml_backend_sched {
     char * context_buffer;
     size_t context_buffer_size;
 
-    bool disable_op_offload;
+    bool op_offload;
 
     int debug;
 };
@@ -768,7 +768,7 @@ static int ggml_backend_sched_backend_id_from_cur(ggml_backend_sched_t sched, st
         if (tensor->op != GGML_OP_ROPE && src->buffer != NULL && src->buffer->usage == GGML_BACKEND_BUFFER_USAGE_WEIGHTS) {
             int src_backend_id = ggml_backend_sched_backend_from_buffer(sched, src, tensor);
             // check if a backend with higher prio wants to offload the op
-            if (!sched->disable_op_offload && src_backend_id == sched->n_backends - 1 && ggml_backend_buffer_is_host(src->buffer)) {
+            if (sched->op_offload && src_backend_id == sched->n_backends - 1 && ggml_backend_buffer_is_host(src->buffer)) {
                 for (int b = 0; b < src_backend_id; b++) {
                     if (ggml_backend_supports_op(sched->backends[b], tensor) && ggml_backend_offload_op(sched->backends[b], tensor)) {
                         SET_CAUSE(tensor, "1.off");
@@ -1455,7 +1455,7 @@ ggml_backend_sched_t ggml_backend_sched_new(
         int n_backends,
         size_t graph_size,
         bool parallel,
-        bool disable_op_offload) {
+        bool op_offload) {
     GGML_ASSERT(n_backends > 0);
     GGML_ASSERT(n_backends <= GGML_SCHED_MAX_BACKENDS);
     GGML_ASSERT(ggml_backend_dev_type(ggml_backend_get_device(backends[n_backends - 1])) == GGML_BACKEND_DEVICE_TYPE_CPU);
@@ -1500,7 +1500,7 @@ ggml_backend_sched_t ggml_backend_sched_new(
     }
 
     sched->galloc = ggml_gallocr_new_n(sched->bufts, n_backends);
-    sched->disable_op_offload = disable_op_offload;
+    sched->op_offload = op_offload;
 
     ggml_backend_sched_reset(sched);
 
diff --git a/include/llama.h b/include/llama.h
@@ -362,7 +362,7 @@ extern "C" {
         bool offload_kqv; // whether to offload the KQV ops (including the KV cache) to GPU
         bool flash_attn;  // whether to use flash attention [EXPERIMENTAL]
         bool no_perf;     // whether to measure performance timings
-        bool disable_op_offload; // whether to disable offload host tensor operations to device globally
+        bool op_offload;  // whether to offload host tensor operations to device
     };
 
     // model quantization parameters
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -93,7 +93,7 @@ llama_context::llama_context(
     }
 
     cparams.n_ubatch = std::min(cparams.n_batch, params.n_ubatch == 0 ? params.n_batch : params.n_ubatch);
-    cparams.disable_op_offload = params.disable_op_offload;
+    cparams.op_offload = params.op_offload;
 
     const uint32_t n_ctx_per_seq = cparams.n_ctx / cparams.n_seq_max;
 
@@ -244,7 +244,7 @@ llama_context::llama_context(
             }
         }
 
-        sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel, cparams.disable_op_offload));
+        sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel, cparams.op_offload));
 
         if (pipeline_parallel) {
             LLAMA_LOG_INFO("%s: pipeline parallelism enabled (n_copies=%d)\n", __func__, ggml_backend_sched_get_n_copies(sched.get()));
@@ -1872,7 +1872,7 @@ llama_context_params llama_context_default_params() {
         /*.offload_kqv                 =*/ true,
         /*.flash_attn                  =*/ false,
         /*.no_perf                     =*/ true,
-        /*.disable_op_offload          =*/ false,
+        /*.op_offload                  =*/ true,
     };
 
     return result;
diff --git a/src/llama-cparams.h b/src/llama-cparams.h
@@ -30,7 +30,7 @@ struct llama_cparams {
     bool flash_attn;
     bool no_perf;
     bool warmup;
-    bool disable_op_offload;
+    bool op_offload;
 
     enum llama_pooling_type pooling_type;
 
diff --git a/tools/llama-bench/llama-bench.cpp b/tools/llama-bench/llama-bench.cpp
@@ -908,15 +908,15 @@ struct cmd_params_instance {
     llama_context_params to_llama_cparams() const {
         llama_context_params cparams = llama_context_default_params();
 
-        cparams.n_ctx              = n_prompt + n_gen + n_depth;
-        cparams.n_batch            = n_batch;
-        cparams.n_ubatch           = n_ubatch;
-        cparams.type_k             = type_k;
-        cparams.type_v             = type_v;
-        cparams.offload_kqv        = !no_kv_offload;
-        cparams.flash_attn         = flash_attn;
-        cparams.embeddings         = embeddings;
-        cparams.disable_op_offload = disable_op_offload;
+        cparams.n_ctx       = n_prompt + n_gen + n_depth;
+        cparams.n_batch     = n_batch;
+        cparams.n_ubatch    = n_ubatch;
+        cparams.type_k      = type_k;
+        cparams.type_v      = type_v;
+        cparams.offload_kqv = !no_kv_offload;
+        cparams.flash_attn  = flash_attn;
+        cparams.embeddings  = embeddings;
+        cparams.op_offload  = !disable_op_offload;
 
         return cparams;
     }

Original file line number	Diff line number	Diff line change
`@@ -93,7 +93,7 @@ llama_context::llama_context(`
`93`	`93`	`}`
`94`	`94`
`95`	`95`	`cparams.n_ubatch = std::min(cparams.n_batch, params.n_ubatch == 0 ? params.n_batch : params.n_ubatch);`
`96`		`- cparams.disable_op_offload = params.disable_op_offload;`
	`96`	`+ cparams.op_offload = params.op_offload;`
`97`	`97`
`98`	`98`	`const uint32_t n_ctx_per_seq = cparams.n_ctx / cparams.n_seq_max;`
`99`	`99`
`@@ -244,7 +244,7 @@ llama_context::llama_context(`
`244`	`244`	`}`
`245`	`245`	`}`
`246`	`246`
`247`		`- sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel, cparams.disable_op_offload));`
	`247`	`+ sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel, cparams.op_offload));`
`248`	`248`
`249`	`249`	`if (pipeline_parallel) {`
`250`	`250`	`LLAMA_LOG_INFO("%s: pipeline parallelism enabled (n_copies=%d)\n", __func__, ggml_backend_sched_get_n_copies(sched.get()));`
`@@ -1872,7 +1872,7 @@ llama_context_params llama_context_default_params() {`
`1872`	`1872`	`/.offload_kqv =/ true,`
`1873`	`1873`	`/.flash_attn =/ false,`
`1874`	`1874`	`/.no_perf =/ true,`
`1875`		`- /.disable_op_offload =/ false,`
	`1875`	`+ /.op_offload =/ true,`
`1876`	`1876`	`};`
`1877`	`1877`
`1878`	`1878`	`return result;`