compile ok

ngxson · ngxson · commit 65f0184517aa · 2025-03-13T22:56:35.000+01:00
diff --git a/common/common.h b/common/common.h
@@ -607,7 +607,7 @@ struct common_batch {
             n_outputs++;
         }
     }
-    void add_text(llama_token token, llama_pos pos, std::vector<llama_seq_id> seq_ids, bool logits) {
+    void add_text_multi_seq(llama_token token, llama_pos pos, std::vector<llama_seq_id> seq_ids, bool logits) {
         llama_batch_ext_add_text(batch.get(), token, pos, seq_ids.data(), seq_ids.size(), logits);
         tokens.push_back({token, seq_ids[0], logits});
         if (logits) {
diff --git a/examples/llava/llava-cli.cpp b/examples/llava/llava-cli.cpp
@@ -20,7 +20,8 @@ static bool eval_tokens(struct llama_context * ctx_llama, std::vector<llama_toke
         if (n_eval > n_batch) {
             n_eval = n_batch;
         }
-        if (llama_decode(ctx_llama, llama_batch_get_one(&tokens[i], n_eval))) {
+        llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(&tokens[i], n_eval, *n_past, 0));
+        if (llama_decode_ext(ctx_llama, batch.get())) {
             LOG_ERR("%s : failed to eval. token %d/%d (batch size %d, n_past %d)\n", __func__, i, N, n_batch, *n_past);
             return false;
         }
diff --git a/examples/llava/minicpmv-cli.cpp b/examples/llava/minicpmv-cli.cpp
@@ -101,7 +101,8 @@ static bool eval_tokens(struct llama_context * ctx_llama, std::vector<llama_toke
         if (n_eval > n_batch) {
             n_eval = n_batch;
         }
-        if (llama_decode(ctx_llama, llama_batch_get_one(&tokens[i], n_eval))) {
+        llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(&tokens[i], n_eval, *n_past, 0));
+        if (llama_decode_ext(ctx_llama, batch.get())) {
             LOG_ERR("%s : failed to eval. token %d/%d (batch size %d, n_past %d)\n", __func__, i, N, n_batch, *n_past);
             return false;
         }
diff --git a/examples/llava/qwen2vl-cli.cpp b/examples/llava/qwen2vl-cli.cpp
@@ -96,16 +96,24 @@ static bool eval_tokens(struct llama_context * ctx_llama, std::vector<llama_toke
         if (n_eval > n_batch) {
             n_eval = n_batch;
         }
-        auto batch = llama_batch_get_one(&tokens[i], n_eval);
+
         // TODO: add mrope pos ids somewhere else
-        pos.resize(batch.n_tokens * 4);
+        int n_tokens = n_eval;
+        pos.resize(n_tokens * 4);
         std::fill(pos.begin(), pos.end(), 0);
-        for (int j = 0; j < batch.n_tokens * 3; j ++) {
-            pos[j] = *st_pos_id + (j % batch.n_tokens);
+        for (int j = 0; j < n_tokens * 3; j ++) {
+            pos[j] = *st_pos_id + (j % n_tokens);
         }
-        batch.pos = pos.data();
 
-        if (llama_decode(ctx_llama, batch)) {
+        llama_batch_ext_ptr batch(llama_batch_ext_init(n_eval, 1));
+        for (int j = 0; j < n_eval; j++) {
+            llama_token token = tokens[i + j];
+            llama_seq_id seq_id = 0;
+            llama_batch_ext_add_text(batch.get(), token, pos[j], &seq_id, 1, false);
+        }
+        llama_batch_ext_set_output_last(batch.get());
+
+        if (llama_decode_ext(ctx_llama, batch.get())) {
             LOG_ERR("%s : failed to eval. token %d/%d (batch size %d, n_past %d)\n", __func__, i, N, n_batch, *n_past);
             return false;
         }
diff --git a/examples/lookahead/lookahead.cpp b/examples/lookahead/lookahead.cpp
@@ -92,8 +92,10 @@ int main(int argc, char ** argv) {
     const auto t_enc_start = ggml_time_us();
 
     // eval the prompt
-    llama_decode(ctx, llama_batch_get_one( inp.data(), n_input - 1));
-    llama_decode(ctx, llama_batch_get_one(&inp.back(),           1));
+    llama_batch_ext_ptr batch0(llama_batch_ext_init_from_text( inp.data(), n_input - 1, 0, 0));
+    llama_batch_ext_ptr batch1(llama_batch_ext_init_from_text(&inp.back(),           1, 0, 0));
+    llama_decode_ext(ctx, batch0.get());
+    llama_decode_ext(ctx, batch1.get());
 
     for (int s = 1; s < W + G + 1; ++s) {
         llama_kv_self_seq_cp(ctx, 0, s, -1, -1);
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
@@ -548,7 +548,8 @@ int main(int argc, char ** argv) {
         int enc_input_size = embd_inp.size();
         llama_token * enc_input_buf = embd_inp.data();
 
-        if (llama_encode(ctx, llama_batch_get_one(enc_input_buf, enc_input_size))) {
+        llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(enc_input_buf, enc_input_size, 0, 0));
+        if (llama_decode_ext(ctx, batch.get())) {
             LOG_ERR("%s : failed to eval\n", __func__);
             return 1;
         }
@@ -668,7 +669,8 @@ int main(int argc, char ** argv) {
 
                 LOG_DBG("eval: %s\n", string_from(ctx, embd).c_str());
 
-                if (llama_decode(ctx, llama_batch_get_one(&embd[i], n_eval))) {
+                llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(&embd[i], n_eval, 0, 0));
+                if (llama_decode_ext(ctx, batch.get())) {
                     LOG_ERR("%s : failed to eval\n", __func__);
                     return 1;
                 }
diff --git a/examples/perplexity/perplexity.cpp b/examples/perplexity/perplexity.cpp
@@ -565,7 +565,6 @@ static results_perplexity perplexity(llama_context * ctx, const common_params &
                 }
 
                 for (int k = 0; k < batch_size; ++k) {
-                    const int idx = seq*n_ctx + k;
                     const llama_pos pos = j*n_batch + k;
                     bool output = pos >= first;
                     batch.add_text(tokens[seq_start + k], pos, seq, output);
@@ -876,7 +875,7 @@ static void hellaswag_score(llama_context * ctx, const common_params & params) {
             }
 
             for (size_t i = 0; i < hs_cur.common_prefix; ++i) {
-                batch.add_text(hs_cur.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3 }, false);
+                batch.add_text_multi_seq(hs_cur.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3 }, false);
             }
             llama_batch_ext_set_output_last(batch.get());
             n_logits += 1;
@@ -886,7 +885,7 @@ static void hellaswag_score(llama_context * ctx, const common_params & params) {
                 // TODO: don't evaluate the last token of each sequence
                 for (size_t i = hs_cur.common_prefix; i < seq_tokens_size; ++i) {
                     const bool needs_logits = i < seq_tokens_size - 1;
-                    batch.add_text(hs_cur.seq_tokens[s][i], i, { s0 + s }, needs_logits);
+                    batch.add_text_multi_seq(hs_cur.seq_tokens[s][i], i, { s0 + s }, needs_logits);
                     n_logits += needs_logits;
                 }
             }
@@ -1155,15 +1154,15 @@ static void winogrande_score(llama_context * ctx, const common_params & params)
             }
 
             for (size_t i = 0; i < data[i1].common_prefix; ++i) {
-                batch.add_text(data[i1].seq_tokens[0][i], i, { s0 + 0, s0 + 1 }, false);
+                batch.add_text_multi_seq(data[i1].seq_tokens[0][i], i, { s0 + 0, s0 + 1 }, false);
             }
             llama_batch_ext_set_output_last(batch.get());
             n_logits += 1;
 
             for (int s = 0; s < 2; ++s) {
                 // TODO: end before the last token, no need to predict past the end of the sequences
                 for (size_t i = data[i1].common_prefix; i < data[i1].seq_tokens[s].size(); ++i) {
-                    batch.add_text(data[i1].seq_tokens[s][i], i, { s0 + s }, true);
+                    batch.add_text_multi_seq(data[i1].seq_tokens[s][i], i, { s0 + s }, true);
                     n_logits += 1;
                 }
             }
@@ -1523,7 +1522,7 @@ static void multiple_choice_score(llama_context * ctx, const common_params & par
 
             for (size_t i = 0; i < cur_task.common_prefix; ++i) {
                 //llama_batch_add(batch, cur_task.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3}, false);
-                batch.add_text(cur_task.seq_tokens[0][i], i, batch_indeces, false);
+                batch.add_text_multi_seq(cur_task.seq_tokens[0][i], i, batch_indeces, false);
             }
             llama_batch_ext_set_output_last(batch.get()); // we need logits for the last token of the common prefix
             n_logits += 1;
@@ -1533,7 +1532,7 @@ static void multiple_choice_score(llama_context * ctx, const common_params & par
                 // TODO: don't evaluate the last token of each sequence
                 for (size_t i = cur_task.common_prefix; i < seq_tokens_size; ++i) {
                     const bool needs_logits = i < seq_tokens_size - 1;
-                    batch.add_text(cur_task.seq_tokens[s][i], i, { s0 + s }, needs_logits);
+                    batch.add_text_multi_seq(cur_task.seq_tokens[s][i], i, { s0 + s }, needs_logits);
                     n_logits += needs_logits;
                 }
             }
@@ -1760,7 +1759,7 @@ static void kl_divergence(llama_context * ctx, const common_params & params) {
 
             batch.clear();
             for (int i = 0; i < batch_size; i++) {
-                batch.add_text(tokens[batch_start + i], j*n_batch + i, {0}, true);
+                batch.add_text_multi_seq(tokens[batch_start + i], j*n_batch + i, {0}, true);
             }
 
             if (llama_decode_ext(ctx, batch.get())) {
diff --git a/examples/speculative-simple/speculative-simple.cpp b/examples/speculative-simple/speculative-simple.cpp
@@ -113,7 +113,8 @@ int main(int argc, char ** argv) {
     struct common_sampler * smpl = common_sampler_init(model_tgt, params.sampling);
 
     // eval the prompt
-    llama_decode(ctx_tgt, llama_batch_get_one(inp.data(), inp.size() - 1));
+    llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(inp.data(), inp.size() - 1, 0, 0));
+    llama_decode_ext(ctx_tgt, batch.get());
 
     // note: keep the last token separate!
     llama_token id_last = inp.back();
diff --git a/examples/speculative/speculative.cpp b/examples/speculative/speculative.cpp
@@ -45,7 +45,7 @@ int main(int argc, char ** argv) {
     }
 
     common_init();
-#ifdef 0
+#if 0
     if (params.speculative.model.empty()) {
         LOG_ERR("%s: --model-draft is required\n", __func__);
         return 1;
@@ -166,9 +166,12 @@ int main(int argc, char ** argv) {
     const auto t_enc_start = ggml_time_us();
 
     // eval the prompt with both models
-    llama_decode(ctx_tgt, llama_batch_get_one( inp.data(), n_input - 1));
-    llama_decode(ctx_tgt, llama_batch_get_one(&inp.back(),           1));
-    llama_decode(ctx_dft, llama_batch_get_one( inp.data(), n_input));
+    llama_batch_ext_ptr batch0(llama_batch_ext_init_from_text( inp.data(), n_input - 1, 0, 0));
+    llama_batch_ext_ptr batch1(llama_batch_ext_init_from_text(&inp.back(),           1, 0, 0));
+    llama_batch_ext_ptr batch2(llama_batch_ext_init_from_text( inp.data(), n_input    , 0, 0));
+    llama_decode_ext(ctx_tgt, batch0);
+    llama_decode_ext(ctx_tgt, batch1);
+    llama_decode_ext(ctx_dft, batch2);
 
     const auto t_enc_end = ggml_time_us();
 

Original file line number	Diff line number	Diff line change
`@@ -607,7 +607,7 @@ struct common_batch {`
`607`	`607`	`n_outputs++;`
`608`	`608`	`}`
`609`	`609`	`}`
`610`		`- void add_text(llama_token token, llama_pos pos, std::vector<llama_seq_id> seq_ids, bool logits) {`
	`610`	`+ void add_text_multi_seq(llama_token token, llama_pos pos, std::vector<llama_seq_id> seq_ids, bool logits) {`
`611`	`611`	`llama_batch_ext_add_text(batch.get(), token, pos, seq_ids.data(), seq_ids.size(), logits);`
`612`	`612`	`tokens.push_back({token, seq_ids[0], logits});`
`613`	`613`	`if (logits) {`
Original file line number	Diff line number	Diff line change
`@@ -20,7 +20,8 @@ static bool eval_tokens(struct llama_context * ctx_llama, std::vector<llama_toke`
`20`	`20`	`if (n_eval > n_batch) {`
`21`	`21`	`n_eval = n_batch;`
`22`	`22`	`}`
`23`		`- if (llama_decode(ctx_llama, llama_batch_get_one(&tokens[i], n_eval))) {`
	`23`	`+ llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(&tokens[i], n_eval, *n_past, 0));`
	`24`	`+ if (llama_decode_ext(ctx_llama, batch.get())) {`
`24`	`25`	`LOG_ERR("%s : failed to eval. token %d/%d (batch size %d, n_past %d)\n", __func__, i, N, n_batch, *n_past);`
`25`	`26`	`return false;`
`26`	`27`	`}`
Original file line number	Diff line number	Diff line change
`@@ -101,7 +101,8 @@ static bool eval_tokens(struct llama_context * ctx_llama, std::vector<llama_toke`
`101`	`101`	`if (n_eval > n_batch) {`
`102`	`102`	`n_eval = n_batch;`
`103`	`103`	`}`
`104`		`- if (llama_decode(ctx_llama, llama_batch_get_one(&tokens[i], n_eval))) {`
	`104`	`+ llama_batch_ext_ptr batch(llama_batch_ext_init_from_text(&tokens[i], n_eval, *n_past, 0));`
	`105`	`+ if (llama_decode_ext(ctx_llama, batch.get())) {`
`105`	`106`	`LOG_ERR("%s : failed to eval. token %d/%d (batch size %d, n_past %d)\n", __func__, i, N, n_batch, *n_past);`
`106`	`107`	`return false;`
`107`	`108`	`}`
Original file line number	Diff line number	Diff line change
`@@ -565,7 +565,6 @@ static results_perplexity perplexity(llama_context * ctx, const common_params &`
`565`	`565`	`}`
`566`	`566`
`567`	`567`	`for (int k = 0; k < batch_size; ++k) {`
`568`		`- const int idx = seq*n_ctx + k;`
`569`	`568`	`const llama_pos pos = j*n_batch + k;`
`570`	`569`	`bool output = pos >= first;`
`571`	`570`	`batch.add_text(tokens[seq_start + k], pos, seq, output);`
`@@ -876,7 +875,7 @@ static void hellaswag_score(llama_context * ctx, const common_params & params) {`
`876`	`875`	`}`
`877`	`876`
`878`	`877`	`for (size_t i = 0; i < hs_cur.common_prefix; ++i) {`
`879`		`- batch.add_text(hs_cur.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3 }, false);`
	`878`	`+ batch.add_text_multi_seq(hs_cur.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3 }, false);`
`880`	`879`	`}`
`881`	`880`	`llama_batch_ext_set_output_last(batch.get());`
`882`	`881`	`n_logits += 1;`
`@@ -886,7 +885,7 @@ static void hellaswag_score(llama_context * ctx, const common_params & params) {`
`886`	`885`	`// TODO: don't evaluate the last token of each sequence`
`887`	`886`	`for (size_t i = hs_cur.common_prefix; i < seq_tokens_size; ++i) {`
`888`	`887`	`const bool needs_logits = i < seq_tokens_size - 1;`
`889`		`- batch.add_text(hs_cur.seq_tokens[s][i], i, { s0 + s }, needs_logits);`
	`888`	`+ batch.add_text_multi_seq(hs_cur.seq_tokens[s][i], i, { s0 + s }, needs_logits);`
`890`	`889`	`n_logits += needs_logits;`
`891`	`890`	`}`
`892`	`891`	`}`
`@@ -1155,15 +1154,15 @@ static void winogrande_score(llama_context * ctx, const common_params & params)`
`1155`	`1154`	`}`
`1156`	`1155`
`1157`	`1156`	`for (size_t i = 0; i < data[i1].common_prefix; ++i) {`
`1158`		`- batch.add_text(data[i1].seq_tokens[0][i], i, { s0 + 0, s0 + 1 }, false);`
	`1157`	`+ batch.add_text_multi_seq(data[i1].seq_tokens[0][i], i, { s0 + 0, s0 + 1 }, false);`
`1159`	`1158`	`}`
`1160`	`1159`	`llama_batch_ext_set_output_last(batch.get());`
`1161`	`1160`	`n_logits += 1;`
`1162`	`1161`
`1163`	`1162`	`for (int s = 0; s < 2; ++s) {`
`1164`	`1163`	`// TODO: end before the last token, no need to predict past the end of the sequences`
`1165`	`1164`	`for (size_t i = data[i1].common_prefix; i < data[i1].seq_tokens[s].size(); ++i) {`
`1166`		`- batch.add_text(data[i1].seq_tokens[s][i], i, { s0 + s }, true);`
	`1165`	`+ batch.add_text_multi_seq(data[i1].seq_tokens[s][i], i, { s0 + s }, true);`
`1167`	`1166`	`n_logits += 1;`
`1168`	`1167`	`}`
`1169`	`1168`	`}`
`@@ -1523,7 +1522,7 @@ static void multiple_choice_score(llama_context * ctx, const common_params & par`
`1523`	`1522`
`1524`	`1523`	`for (size_t i = 0; i < cur_task.common_prefix; ++i) {`
`1525`	`1524`	`//llama_batch_add(batch, cur_task.seq_tokens[0][i], i, { s0 + 0, s0 + 1, s0 + 2, s0 + 3}, false);`
`1526`		`- batch.add_text(cur_task.seq_tokens[0][i], i, batch_indeces, false);`
	`1525`	`+ batch.add_text_multi_seq(cur_task.seq_tokens[0][i], i, batch_indeces, false);`
`1527`	`1526`	`}`
`1528`	`1527`	`llama_batch_ext_set_output_last(batch.get()); // we need logits for the last token of the common prefix`
`1529`	`1528`	`n_logits += 1;`
`@@ -1533,7 +1532,7 @@ static void multiple_choice_score(llama_context * ctx, const common_params & par`
`1533`	`1532`	`// TODO: don't evaluate the last token of each sequence`
`1534`	`1533`	`for (size_t i = cur_task.common_prefix; i < seq_tokens_size; ++i) {`
`1535`	`1534`	`const bool needs_logits = i < seq_tokens_size - 1;`
`1536`		`- batch.add_text(cur_task.seq_tokens[s][i], i, { s0 + s }, needs_logits);`
	`1535`	`+ batch.add_text_multi_seq(cur_task.seq_tokens[s][i], i, { s0 + s }, needs_logits);`
`1537`	`1536`	`n_logits += needs_logits;`
`1538`	`1537`	`}`
`1539`	`1538`	`}`
`@@ -1760,7 +1759,7 @@ static void kl_divergence(llama_context * ctx, const common_params & params) {`
`1760`	`1759`
`1761`	`1760`	`batch.clear();`
`1762`	`1761`	`for (int i = 0; i < batch_size; i++) {`
`1763`		`- batch.add_text(tokens[batch_start + i], j*n_batch + i, {0}, true);`
	`1762`	`+ batch.add_text_multi_seq(tokens[batch_start + i], j*n_batch + i, {0}, true);`
`1764`	`1763`	`}`
`1765`	`1764`
`1766`	`1765`	`if (llama_decode_ext(ctx, batch.get())) {`