try reduce pipeline parallelism in order to reduce compute buffer sizes

LostRuins · LostRuins · commit b7428048fce1 · 2025-12-11T14:30:38.000+08:00
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
@@ -662,7 +662,8 @@ static bool ggml_is_view_op(enum ggml_op op) {
 #endif
 
 #ifndef GGML_SCHED_MAX_COPIES
-#define GGML_SCHED_MAX_COPIES 4
+//kcpp reduced from 4 to 2 to try make buffer sizes smaller on multigpu
+#define GGML_SCHED_MAX_COPIES 2
 #endif
 
 struct ggml_backend_sched_split {
diff --git a/koboldcpp.py b/koboldcpp.py
@@ -66,7 +66,7 @@
 extra_images_max = 4 # for kontext/qwen img
 
 # global vars
-KcppVersion = "1.103"
+KcppVersion = "1.104"
 showdebug = True
 kcpp_instance = None #global running instance
 global_memory = {"tunnel_url": "", "restart_target":"", "input_to_exit":False, "load_complete":False, "restart_override_config_target":""}