context : fix overflow when re-ordering huge outputs

compilade · compilade · commit f16a843a3877 · 2025-08-04T22:01:28.000-04:00
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -1328,21 +1328,21 @@ uint32_t llama_context::output_reserve(int32_t n_outputs) {
 }
 
 void llama_context::output_reorder() {
-    const uint32_t n_vocab = model.vocab.n_tokens();
+    const uint64_t n_vocab = model.vocab.n_tokens();
     const uint64_t n_embd  = model.hparams.n_embd;
 
-    for (uint32_t s = 0; s < output_swaps.size(); ++s) {
-        const uint32_t i0 = output_swaps[s].i0;
-        const uint32_t i1 = output_swaps[s].i1;
+    for (size_t s = 0; s < output_swaps.size(); ++s) {
+        const uint64_t i0 = output_swaps[s].i0;
+        const uint64_t i1 = output_swaps[s].i1;
 
         if (logits_size > 0) {
-            for (uint32_t k = 0; k < n_vocab; k++) {
+            for (uint64_t k = 0; k < n_vocab; k++) {
                 std::swap(logits[i0*n_vocab + k], logits[i1*n_vocab + k]);
             }
         }
 
         if (embd_size > 0) {
-            for (uint32_t k = 0; k < n_embd; k++) {
+            for (uint64_t k = 0; k < n_embd; k++) {
                 std::swap(embd[i0*n_embd + k], embd[i1*n_embd + k]);
             }
         }

Original file line number	Diff line number	Diff line change
`@@ -1328,21 +1328,21 @@ uint32_t llama_context::output_reserve(int32_t n_outputs) {`
`1328`	`1328`	`}`
`1329`	`1329`
`1330`	`1330`	`void llama_context::output_reorder() {`
`1331`		`- const uint32_t n_vocab = model.vocab.n_tokens();`
	`1331`	`+ const uint64_t n_vocab = model.vocab.n_tokens();`
`1332`	`1332`	`const uint64_t n_embd = model.hparams.n_embd;`
`1333`	`1333`
`1334`		`- for (uint32_t s = 0; s < output_swaps.size(); ++s) {`
`1335`		`- const uint32_t i0 = output_swaps[s].i0;`
`1336`		`- const uint32_t i1 = output_swaps[s].i1;`
	`1334`	`+ for (size_t s = 0; s < output_swaps.size(); ++s) {`
	`1335`	`+ const uint64_t i0 = output_swaps[s].i0;`
	`1336`	`+ const uint64_t i1 = output_swaps[s].i1;`
`1337`	`1337`
`1338`	`1338`	`if (logits_size > 0) {`
`1339`		`- for (uint32_t k = 0; k < n_vocab; k++) {`
	`1339`	`+ for (uint64_t k = 0; k < n_vocab; k++) {`
`1340`	`1340`	`std::swap(logits[i0n_vocab + k], logits[i1n_vocab + k]);`
`1341`	`1341`	`}`
`1342`	`1342`	`}`
`1343`	`1343`
`1344`	`1344`	`if (embd_size > 0) {`
`1345`		`- for (uint32_t k = 0; k < n_embd; k++) {`
	`1345`	`+ for (uint64_t k = 0; k < n_embd; k++) {`
`1346`	`1346`	`std::swap(embd[i0n_embd + k], embd[i1n_embd + k]);`
`1347`	`1347`	`}`
`1348`	`1348`	`}`