adapting the previous fix to the syntax used by other fields of the ubatch

FMayran · fm240223 · commit 4d51baa03241 · 2025-10-23T16:47:07.000+02:00
diff --git a/src/llama-batch.cpp b/src/llama-batch.cpp
@@ -257,6 +257,8 @@ bool llama_batch_allocr::init(
             continue;
         }
 
+        //@fmayran: these checks don't make sense with models using position encoding such as Qwen VL, because the position stored in the KV cache can jump around (it is not even always increasing).
+        //it is not enough to let them be repeating. Within an image embedding, arbitrary jumps are expected.
         //const llama_pos p0 = memory ? memory->seq_pos_max(s) : -1;
         //
         //if (p0 >= 0) {
@@ -370,37 +372,38 @@ llama_ubatch llama_batch_allocr::ubatch_reserve(uint32_t n_seq_tokens, uint32_t
 
     auto udata = std::make_shared<llama_ubatch::data_t>();
 
-    udata->token     .resize(n_tokens);
-    udata->embd      .clear();
-    udata->pos       .resize(n_tokens);
-    udata->n_seq_id  .resize(n_tokens);
-    udata->seq_id    .resize(n_tokens);
-    udata->seq_id_unq.resize(0);
-    udata->seq_idx   .resize(LLAMA_MAX_SEQ, -1);
-    udata->output    .resize(n_tokens);
+    udata->token               .resize(n_tokens);
+    udata->embd                .clear();
+    udata->pos                 .resize(n_tokens);
+    udata->n_seq_id            .resize(n_tokens);
+    udata->seq_id              .resize(n_tokens);
+    udata->seq_id_unq          .resize(0);
+    udata->seq_idx             .resize(LLAMA_MAX_SEQ, -1);
+    udata->output              .resize(n_tokens);
+    udata->kv_position_of_token.resize(n_tokens, -1);
 
     for (uint32_t s = 0; s < n_seqs; ++s) {
         udata->seq_idx[s] = s;
         udata->seq_id_unq.push_back(s);
     }
 
     llama_ubatch res {
-        /*.b_equal_seqs =*/ true,
-        /*.n_tokens     =*/ n_tokens,
-        /*.n_seq_tokens =*/ n_seq_tokens,
-        /*.n_seqs       =*/ n_seqs,
-        /*.n_seqs_unq   =*/ n_seqs,
-
-        /*.token        =*/ udata->token.data(),
-        /*.embd         =*/ nullptr,
-        /*.pos          =*/ udata->pos.data(),
-        /*.n_seq_id     =*/ udata->n_seq_id.data(),
-        /*.seq_id       =*/ udata->seq_id.data(),
-        /*.seq_id_unq   =*/ udata->seq_id_unq.data(),
-        /*.seq_idx      =*/ udata->seq_idx.data(),
-        /*.output       =*/ udata->output.data(),
-        /*.data         =*/ std::move(udata),
-        /*.kv_position_of_token=*/ {},
+        /*.b_equal_seqs =*/        true,
+        /*.n_tokens     =*/        n_tokens,
+        /*.n_seq_tokens =*/        n_seq_tokens,
+        /*.n_seqs       =*/        n_seqs,
+        /*.n_seqs_unq   =*/        n_seqs,
+
+        /*.token        =*/        udata->token.data(),
+        /*.embd         =*/        nullptr,
+        /*.pos          =*/        udata->pos.data(),
+        /*.n_seq_id     =*/        udata->n_seq_id.data(),
+        /*.seq_id       =*/        udata->seq_id.data(),
+        /*.seq_id_unq   =*/        udata->seq_id_unq.data(),
+        /*.seq_idx      =*/        udata->seq_idx.data(),
+        /*.output       =*/        udata->output.data(),
+        /*.kv_position_of_token=*/ udata->kv_position_of_token.data(),
+        /*.data         =*/        std::move(udata),
     };
 
     return res;
@@ -662,14 +665,15 @@ llama_ubatch llama_batch_allocr::ubatch_add(const std::vector<int32_t> & idxs, u
     const int64_t n_embd_all = batch.embd ? (int64_t) n_tokens*n_embd : 0;
     const int64_t n_pos_all  =              (int64_t) n_tokens*n_pos_cur;
 
-    udata->token     .resize(n_tokens);
-    udata->embd      .resize(n_embd_all);
-    udata->pos       .resize(n_pos_all);
-    udata->n_seq_id  .resize(n_tokens);
-    udata->seq_id    .resize(n_tokens);
-    udata->seq_id_unq.resize(0);
-    udata->seq_idx   .resize(LLAMA_MAX_SEQ, -1);
-    udata->output    .resize(n_tokens);
+    udata->token               .resize(n_tokens);
+    udata->embd                .resize(n_embd_all);
+    udata->pos                 .resize(n_pos_all);
+    udata->n_seq_id            .resize(n_tokens);
+    udata->seq_id              .resize(n_tokens);
+    udata->seq_id_unq          .resize(0);
+    udata->seq_idx             .resize(LLAMA_MAX_SEQ, -1);
+    udata->output              .resize(n_tokens);
+    udata->kv_position_of_token.resize(n_tokens, -1);
 
     seq_set_t seq_set_unq;
 
@@ -707,22 +711,23 @@ llama_ubatch llama_batch_allocr::ubatch_add(const std::vector<int32_t> & idxs, u
     }
 
     llama_ubatch res {
-        /*.b_equal_seqs =*/ equal_seqs,
-        /*.n_tokens     =*/ n_tokens,
-        /*.n_seq_tokens =*/ n_tokens/n_seqs,
-        /*.n_seqs       =*/ n_seqs,
-        /*.n_seqs_unq   =*/ (uint32_t) udata->seq_id_unq.size(),
-
-        /*.token        =*/ batch.token ? udata->token.data() : nullptr,
-        /*.embd         =*/ batch.embd ? udata->embd.data() : nullptr,
-        /*.pos          =*/ udata->pos.data(),
-        /*.n_seq_id     =*/ udata->n_seq_id.data(),
-        /*.seq_id       =*/ udata->seq_id.data(),
-        /*.seq_id_unq   =*/ udata->seq_id_unq.data(),
-        /*.seq_idx      =*/ udata->seq_idx.data(),
-        /*.output       =*/ udata->output.data(),
-        /*.data         =*/ std::move(udata),
-        /*.kv_position_of_token=*/ {},
+        /*.b_equal_seqs =*/        equal_seqs,
+        /*.n_tokens     =*/        n_tokens,
+        /*.n_seq_tokens =*/        n_tokens/n_seqs,
+        /*.n_seqs       =*/        n_seqs,
+        /*.n_seqs_unq   =*/        (uint32_t) udata->seq_id_unq.size(),
+
+        /*.token        =*/        batch.token ? udata->token.data() : nullptr,
+        /*.embd         =*/        batch.embd ? udata->embd.data() : nullptr,
+        /*.pos          =*/        udata->pos.data(),
+        /*.n_seq_id     =*/        udata->n_seq_id.data(),
+        /*.seq_id       =*/        udata->seq_id.data(),
+        /*.seq_id_unq   =*/        udata->seq_id_unq.data(),
+        /*.seq_idx      =*/        udata->seq_idx.data(),
+        /*.output       =*/        udata->output.data(),
+        /*.kv_position_of_token=*/ udata->kv_position_of_token.data(),
+        /*.data         =*/        std::move(udata),
+        
     };
 
     if (debug > 0) {
diff --git a/src/llama-batch.h b/src/llama-batch.h
@@ -30,15 +30,16 @@ struct llama_ubatch {
     // seq_idx:    indices of the unique sequence ids in the ubatch in [0, n_seqs_unq)
     //             used for extracting sequence pooled embeddings
 
-    //                          // size               | idx | val
-    llama_token  *  token;      // [n_tokens]         | i   | id, token
-    float        *  embd;       // [n_embd, n_tokens] | i   | embd
-    llama_pos    *  pos;        // [n_tokens]         | i   | pos
-    int32_t      *  n_seq_id;   // [n_tokens]         | i   | -
-    llama_seq_id ** seq_id;     // [n_tokens]         | s   | s0, s1, seq_id
-    llama_seq_id *  seq_id_unq; // [n_seqs_unq]       | s   | seq_id
-    int32_t      *  seq_idx;    // [LLAMA_MAX_SEQ]    | -   | seq_idx
-    int8_t       *  output;     // [n_tokens]         | i   | -
+    //                                      // size               | idx | val
+    llama_token  *  token;                  // [n_tokens]         | i   | id, token
+    float        *  embd;                   // [n_embd, n_tokens] | i   | embd
+    llama_pos    *  pos;                    // [n_tokens]         | i   | pos
+    int32_t      *  n_seq_id;               // [n_tokens]         | i   | -
+    llama_seq_id ** seq_id;                 // [n_tokens]         | s   | s0, s1, seq_id
+    llama_seq_id *  seq_id_unq;             // [n_seqs_unq]       | s   | seq_id
+    int32_t      *  seq_idx;                // [LLAMA_MAX_SEQ]    | -   | seq_idx
+    int8_t       *  output;                 // [n_tokens]         | i   | -
+    int32_t      *  kv_position_of_token;   // [n_tokens]         | i   | kv position whre the token was inserted
 
     struct data_t {
         std::vector<llama_token>    token;
@@ -49,11 +50,11 @@ struct llama_ubatch {
         std::vector<llama_seq_id>   seq_id_unq;
         std::vector<int32_t>        seq_idx;
         std::vector<int8_t>         output;
+        std::vector<int32_t>        kv_position_of_token;//when pushed to the kv cache, where is the token pushed (used for causal masking)
     };
 
     // the llama_ubatch pointers above point to this data if set. otherwise - points to non-owning data
     std::shared_ptr<data_t> data;
-    mutable std::vector<int32_t> kv_position_of_token;//when pushed to the kv cache, where is the token pushed (used for causal masking)
 };
 
 // a helper for sanitizing, fulfilling and splitting a batch
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -875,9 +875,6 @@ void llama_kv_cache::apply_ubatch(const slot_info & sinfo, const llama_ubatch &
 
     assert(ubatch.n_tokens == sinfo.n_stream()*sinfo.size());
 
-    ubatch.kv_position_of_token.clear();//clear first, to ensure that all values will be filled with -1
-    ubatch.kv_position_of_token.resize(ubatch.n_tokens, -1);
-
     for (uint32_t s = 0; s < sinfo.n_stream(); ++s) {
         for (uint32_t ii = 0; ii < sinfo.size(); ++ii) {
             const uint32_t i = s*sinfo.size() + ii;
@@ -898,7 +895,7 @@ void llama_kv_cache::apply_ubatch(const slot_info & sinfo, const llama_ubatch &
             }
 
             cells.pos_set(idx, ubatch.pos[i]);
-            ubatch.kv_position_of_token[i] = (int32_t)idx;
+            ubatch.kv_position_of_token[i] = (int32_t)idx;//set the position in the kv cache as a property for this token (needed for proper causal masking)
 
             for (int32_t s = 0; s < ubatch.n_seq_id[i]; s++) {
                 cells.seq_add(idx, ubatch.seq_id[i][s]);
@@ -1219,8 +1216,8 @@ void llama_kv_cache::set_input_kq_mask(ggml_tensor * dst, const llama_ubatch * u
 
     std::fill(data, data + ggml_nelements(dst), -INFINITY);
 
-    std::vector<int32_t> map_kv_to_batch(n_kv, -1);
-    for (size_t i = 0; i < ubatch->kv_position_of_token.size(); ++i)//invert the batch -> kv position map into a kv -> batch position map
+    std::vector<int32_t> map_kv_to_batch(n_kv, -1);//for each token in the cache, either (-1) or the position in the current ubatch
+    for (uint32_t i = 0; i < n_tokens; ++i)//invert the batch -> kv position map into a kv -> batch position map
     {
         if (ubatch->kv_position_of_token[i] != -1)
             map_kv_to_batch[ubatch->kv_position_of_token[i]] = i;