speculative : limit batch size to llama_n_batch

ggerganov · ggerganov · commit 90ab8a10d58f · 2024-10-20T20:15:59.000+03:00
diff --git a/examples/speculative/speculative.cpp b/examples/speculative/speculative.cpp
@@ -195,8 +195,8 @@ int main(int argc, char ** argv) {
         drafts[s].smpl = common_sampler_init(model_dft, params.sparams);
     }
 
-    llama_batch batch_dft = llama_batch_init(llama_n_ctx(ctx_dft), 0, 1);
-    llama_batch batch_tgt = llama_batch_init(llama_n_ctx(ctx_tgt), 0, n_seq_dft);
+    llama_batch batch_dft = llama_batch_init(llama_n_batch(ctx_dft), 0, 1);
+    llama_batch batch_tgt = llama_batch_init(llama_n_batch(ctx_tgt), 0, n_seq_dft);
 
     const auto t_dec_start = ggml_time_us();
 

Original file line number	Diff line number	Diff line change
`@@ -195,8 +195,8 @@ int main(int argc, char ** argv) {`
`195`	`195`	`drafts[s].smpl = common_sampler_init(model_dft, params.sparams);`
`196`	`196`	`}`
`197`	`197`
`198`		`- llama_batch batch_dft = llama_batch_init(llama_n_ctx(ctx_dft), 0, 1);`
`199`		`- llama_batch batch_tgt = llama_batch_init(llama_n_ctx(ctx_tgt), 0, n_seq_dft);`
	`198`	`+ llama_batch batch_dft = llama_batch_init(llama_n_batch(ctx_dft), 0, 1);`
	`199`	`+ llama_batch batch_tgt = llama_batch_init(llama_n_batch(ctx_tgt), 0, n_seq_dft);`
`200`	`200`
`201`	`201`	`const auto t_dec_start = ggml_time_us();`
`202`	`202`