kv-cache : fix obo error in SWA pruning logic

ggerganov · ggerganov · commit 3ad524ae7041 · 2025-05-12T14:33:57.000+03:00
ggml-ci
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -1574,7 +1574,7 @@ llama_kv_cache_unified_iswa::llama_kv_cache_unified_iswa(
     llama_kv_cache_unified::layer_filter_cb filter_swa  = [&](int32_t il) { return  model.hparams.is_swa(il); };
 
     const uint32_t kv_size_base = kv_size;
-    const uint32_t kv_size_swa  = std::min(kv_size, GGML_PAD(hparams.n_swa*n_seq_max + n_batch + 1, padding));
+    const uint32_t kv_size_swa  = std::min(kv_size, GGML_PAD(hparams.n_swa*n_seq_max + n_batch, padding));
 
     LLAMA_LOG_INFO("%s: creating non-SWA KV cache, size = %u cells\n", __func__, kv_size_base);
 
@@ -1639,7 +1639,7 @@ void llama_kv_cache_unified_iswa::commit() {
             continue;
         }
 
-        kv_swa->seq_rm(seq_id, -1, pos_max - hparams.n_swa);
+        kv_swa->seq_rm(seq_id, -1, pos_max - hparams.n_swa + 1);
     }
 
     pending.pos_max.clear();

Original file line number	Diff line number	Diff line change
`@@ -1574,7 +1574,7 @@ llama_kv_cache_unified_iswa::llama_kv_cache_unified_iswa(`
`1574`	`1574`	`llama_kv_cache_unified::layer_filter_cb filter_swa = [&](int32_t il) { return model.hparams.is_swa(il); };`
`1575`	`1575`
`1576`	`1576`	`const uint32_t kv_size_base = kv_size;`
`1577`		`- const uint32_t kv_size_swa = std::min(kv_size, GGML_PAD(hparams.n_swa*n_seq_max + n_batch + 1, padding));`
	`1577`	`+ const uint32_t kv_size_swa = std::min(kv_size, GGML_PAD(hparams.n_swa*n_seq_max + n_batch, padding));`
`1578`	`1578`
`1579`	`1579`	`LLAMA_LOG_INFO("%s: creating non-SWA KV cache, size = %u cells\n", __func__, kv_size_base);`
`1580`	`1580`
`@@ -1639,7 +1639,7 @@ void llama_kv_cache_unified_iswa::commit() {`
`1639`	`1639`	`continue;`
`1640`	`1640`	`}`
`1641`	`1641`
`1642`		`- kv_swa->seq_rm(seq_id, -1, pos_max - hparams.n_swa);`
	`1642`	`+ kv_swa->seq_rm(seq_id, -1, pos_max - hparams.n_swa + 1);`
`1643`	`1643`	`}`
`1644`	`1644`
`1645`	`1645`	`pending.pos_max.clear();`