fix: Fix the chunk size computation

gabe-l-hart · gabe-l-hart · commit aba30d6ff698 · 2025-10-29T11:16:12.000-06:00
Branch: Mamba2SSD

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -11906,7 +11906,7 @@ struct llm_graph_context_mamba : public llm_graph_context {
                     for (auto chunk_i = 0; chunk_i < n_seq_tokens; chunk_i += chunk_size) {
 
                         // chunk views
-                        const auto chunk_size_i = std::min(chunk_size, uint32_t(n_seq_tokens - chunk_i * chunk_size));
+                        const auto chunk_size_i = std::min(chunk_size, uint32_t(n_seq_tokens - chunk_i));
                         // slice dtA on dim 1
                         ggml_tensor * dtA_chunk = ggml_view_3d(ctx, dtA,
                             dtA->ne[0], chunk_size_i, dtA->ne[2],