Updated to be7c3034108473beda214fd1d7c98fd6a7a3bdf5

martindevans · martindevans · commit a74314c5af48 · 2025-03-14T00:07:30.000Z
diff --git a/LLama.Unittest/LLamaContextTests.cs b/LLama.Unittest/LLamaContextTests.cs
@@ -14,6 +14,10 @@ public LLamaContextTests()
             var @params = new ModelParams(Constants.GenerativeModelPath2)
             {
                 ContextSize = 128,
+                BatchSize = 8,
+                UBatchSize = 8,
+                SeqMax = 1,
+                VocabOnly = false,
                 GpuLayerCount = Constants.CIGpuLayerCount,
             };
             _weights = LLamaWeights.LoadFromFile(@params);
@@ -84,6 +88,11 @@ public void TokenizeEmpty()
         [Fact]
         public void SaveLoadState()
         {
+            // Make sure there's something in the context worth saving
+            var batch = new LLamaBatch();
+            batch.Add(17, 0, LLamaSeqId.Zero, true);
+            _context.Decode(batch);
+
             using var state1 = _context.GetState();
 
             var stream = new MemoryStream();
@@ -99,6 +108,11 @@ public void SaveLoadState()
         [Fact]
         public async Task SaveLoadStateAsync()
         {
+            // Make sure there's something in the context worth saving
+            var batch = new LLamaBatch();
+            batch.Add(17, 0, LLamaSeqId.Zero, true);
+            _context.Decode(batch);
+
             using var state1 = _context.GetState();
 
             var stream = new MemoryStream();
diff --git a/LLama/Batched/Conversation.cs b/LLama/Batched/Conversation.cs
@@ -128,7 +128,7 @@ public Conversation Fork()
         _forked = true;
 
         // Assign tokens to the new sequence
-        NativeApi.llama_kv_cache_seq_cp(Executor.Context.NativeHandle, ConversationId, c.ConversationId, 0, _end);
+        Executor.Context.NativeHandle.KvCacheSequenceCopy(ConversationId, c.ConversationId, 0, _end);
 
         return c;
     }
diff --git a/LLama/LLamaExecutorBase.cs b/LLama/LLamaExecutorBase.cs
@@ -193,8 +193,8 @@ protected virtual void HandleRunOutOfContext(int tokensToKeep)
             int n_left = _pastTokensCount - tokensToKeep;
             int n_discard = n_left / 2;
 
-            NativeApi.llama_kv_cache_seq_rm(Context.NativeHandle, LLamaSeqId.Zero, tokensToKeep, tokensToKeep + n_discard);
-            NativeApi.llama_kv_cache_seq_add(Context.NativeHandle, LLamaSeqId.Zero, tokensToKeep + n_discard, _pastTokensCount, -n_discard);
+            NativeApi.llama_kv_self_seq_rm(Context.NativeHandle, LLamaSeqId.Zero, tokensToKeep, tokensToKeep + n_discard);
+            NativeApi.llama_kv_self_seq_add(Context.NativeHandle, LLamaSeqId.Zero, tokensToKeep + n_discard, _pastTokensCount, -n_discard);
 
             _pastTokensCount -= n_discard;
             // stop saving session if we run out of context
diff --git a/LLama/LLamaSharp.csproj b/LLama/LLamaSharp.csproj
@@ -56,7 +56,7 @@
   </ItemGroup>
 
   <PropertyGroup>
-    <BinaryReleaseId>6fefc05a7a4e67678v2</BinaryReleaseId>
+    <BinaryReleaseId>be7c3034108473be</BinaryReleaseId>
   </PropertyGroup>
 
   <PropertyGroup>
diff --git a/LLama/LLamaStatelessExecutor.cs b/LLama/LLamaStatelessExecutor.cs
@@ -155,8 +155,8 @@ public async IAsyncEnumerable<string> InferAsync(string prompt, IInferenceParams
                     var n_left = n_past - tokensKeep;
                     var n_discard = n_left / 2;
 
-                    NativeApi.llama_kv_cache_seq_rm(Context.NativeHandle, LLamaSeqId.Zero, tokensKeep , tokensKeep + n_discard);
-                    NativeApi.llama_kv_cache_seq_add(Context.NativeHandle, LLamaSeqId.Zero, tokensKeep + n_discard, n_past, -n_discard);
+                    NativeApi.llama_kv_self_seq_rm(Context.NativeHandle, LLamaSeqId.Zero, tokensKeep , tokensKeep + n_discard);
+                    NativeApi.llama_kv_self_seq_add(Context.NativeHandle, LLamaSeqId.Zero, tokensKeep + n_discard, n_past, -n_discard);
 
                     n_past -= n_discard;
                 }
diff --git a/LLama/Native/LLamaKvCache.cs b/LLama/Native/LLamaKvCache.cs
@@ -0,0 +1,10 @@
+namespace LLama.Native;
+
+/// <summary>
+/// C# representation of llama_kv_cache
+/// </summary>
+/// <remarks>llama_kv_cache</remarks>
+internal struct LLamaKvCacheNative
+{
+    
+}
diff --git a/LLama/Native/NativeApi.cs b/LLama/Native/NativeApi.cs
@@ -273,22 +273,22 @@ public static void llama_log_set(NativeLogConfig.LLamaLogCallback logCallback)
         /// <param name="ctx"></param>
         /// <returns></returns>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern int llama_get_kv_cache_token_count(SafeLLamaContextHandle ctx);
+        internal static extern int llama_kv_self_n_tokens(SafeLLamaContextHandle ctx);
         
         /// <summary>
         /// Returns the number of used KV cells (i.e. have at least one sequence assigned to them)
         /// </summary>
         /// <param name="ctx"></param>
         /// <returns></returns>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern int llama_get_kv_cache_used_cells(SafeLLamaContextHandle ctx);
+        internal static extern int llama_kv_self_used_cells(SafeLLamaContextHandle ctx);
 
         /// <summary>
         /// Clear the KV cache. Both cell info is erased and KV data is zeroed
         /// </summary>
         /// <param name="ctx"></param>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern void llama_kv_cache_clear(SafeLLamaContextHandle ctx);
+        internal static extern void llama_kv_self_clear(SafeLLamaContextHandle ctx);
 
         /// <summary>
         /// Removes all tokens that belong to the specified sequence and have positions in [p0, p1)
@@ -300,7 +300,7 @@ public static void llama_log_set(NativeLogConfig.LLamaLogCallback logCallback)
         /// <returns>Returns false if a partial sequence cannot be removed. Removing a whole sequence never fails</returns>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
         [return: MarshalAs(UnmanagedType.U1)]
-        public static extern bool llama_kv_cache_seq_rm(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1);
+        public static extern bool llama_kv_self_seq_rm(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1);
 
         /// <summary>
         /// Copy all tokens that belong to the specified sequence to another sequence
@@ -312,35 +312,35 @@ public static void llama_log_set(NativeLogConfig.LLamaLogCallback logCallback)
         /// <param name="p0"></param>
         /// <param name="p1"></param>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern void llama_kv_cache_seq_cp(SafeLLamaContextHandle ctx, LLamaSeqId src, LLamaSeqId dest, LLamaPos p0, LLamaPos p1);
+        internal static extern void llama_kv_self_seq_cp(SafeLLamaContextHandle ctx, LLamaSeqId src, LLamaSeqId dest, LLamaPos p0, LLamaPos p1);
 
         /// <summary>
         /// Removes all tokens that do not belong to the specified sequence
         /// </summary>
         /// <param name="ctx"></param>
         /// <param name="seq"></param>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern void llama_kv_cache_seq_keep(SafeLLamaContextHandle ctx, LLamaSeqId seq);
+        internal static extern void llama_kv_self_seq_keep(SafeLLamaContextHandle ctx, LLamaSeqId seq);
 
         /// <summary>
         /// Adds relative position "delta" to all tokens that belong to the specified sequence and have positions in [p0, p1)
         /// If the KV cache is RoPEd, the KV data is updated accordingly:
         ///  - lazily on next llama_decode()
-        ///  - explicitly with llama_kv_cache_update()
+        ///  - explicitly with llama_kv_self_update()
         /// </summary>
         /// <param name="ctx"></param>
         /// <param name="seq"></param>
         /// <param name="p0"></param>
         /// <param name="p1"></param>
         /// <param name="delta"></param>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern void llama_kv_cache_seq_add(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int delta);
+        internal static extern void llama_kv_self_seq_add(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int delta);
 
         /// <summary>
         /// Integer division of the positions by factor of `d > 1`
         /// If the KV cache is RoPEd, the KV data is updated accordingly:
         ///   - lazily on next llama_decode()
-        ///   - explicitly with llama_kv_cache_update()
+        ///   - explicitly with llama_kv_self_update()
         /// <br />
         /// p0 &lt; 0 : [0,  p1]
         /// <br />
@@ -352,7 +352,7 @@ public static void llama_log_set(NativeLogConfig.LLamaLogCallback logCallback)
         /// <param name="p1"></param>
         /// <param name="d"></param>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern void llama_kv_cache_seq_div(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int d);
+        internal static extern void llama_kv_self_seq_div(SafeLLamaContextHandle ctx, LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int d);
 
         /// <summary>
         /// Returns the largest position present in the KV cache for the specified sequence
@@ -361,7 +361,7 @@ public static void llama_log_set(NativeLogConfig.LLamaLogCallback logCallback)
         /// <param name="seq"></param>
         /// <returns></returns>
         [DllImport(libraryName, CallingConvention = CallingConvention.Cdecl)]
-        public static extern LLamaPos llama_kv_cache_seq_pos_max(SafeLLamaContextHandle ctx, LLamaSeqId seq);
+        internal static extern LLamaPos llama_kv_self_seq_pos_max(SafeLLamaContextHandle ctx, LLamaSeqId seq);
 
         /// <summary>
         /// Allocates a batch of tokens on the heap
diff --git a/LLama/Native/SafeLLamaContextHandle.cs b/LLama/Native/SafeLLamaContextHandle.cs
@@ -313,27 +313,27 @@ static SafeLLamaContextHandle()
         /// <summary>
         /// Defragment the KV cache. This will be applied:
         ///   - lazily on next llama_decode()
-        ///   - explicitly with llama_kv_cache_update()
+        ///   - explicitly with llama_kv_self_update()
         /// </summary>
         /// <param name="ctx"></param>
         /// <returns></returns>
         [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
-        private static extern void llama_kv_cache_defrag(SafeLLamaContextHandle ctx);
+        private static extern void llama_kv_self_defrag(SafeLLamaContextHandle ctx);
 
         /// <summary>
         /// Apply the KV cache updates (such as K-shifts, defragmentation, etc.)
         /// </summary>
         /// <param name="ctx"></param>
         [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
-        private static extern void llama_kv_cache_update(SafeLLamaContextHandle ctx);
+        private static extern void llama_kv_self_update(SafeLLamaContextHandle ctx);
 
         /// <summary>
         /// Check if the context supports KV cache shifting
         /// </summary>
         /// <param name="ctx"></param>
         /// <returns></returns>
         [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
-        private static extern bool llama_kv_cache_can_shift(SafeLLamaContextHandle ctx);
+        private static extern bool llama_kv_self_can_shift(SafeLLamaContextHandle ctx);
 
         [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
         private static extern LLamaPerfContextTimings llama_perf_context(SafeLLamaContextHandle ctx);
@@ -386,6 +386,9 @@ static SafeLLamaContextHandle()
         /// <returns>A pointer to the first float in an embedding, length = ctx.EmbeddingSize</returns>
         [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
         private static extern unsafe float* llama_get_embeddings_ith(SafeLLamaContextHandle ctx, int i);
+
+        [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
+        private static extern LLamaKvCacheNative llama_get_kv_self(SafeLLamaContextHandle ctx);
         #endregion
 
         #region LoRA
@@ -751,25 +754,25 @@ public void ResetTimings()
         /// <summary>
         /// Check if the context supports KV cache shifting
         /// </summary>
-        public bool KvCacheCanShift => llama_kv_cache_can_shift(this);
+        public bool KvCacheCanShift => llama_kv_self_can_shift(this);
 
         /// <summary>
         /// Apply KV cache updates (such as K-shifts, defragmentation, etc.)
         /// </summary>
         public void KvCacheUpdate()
         {
-            llama_kv_cache_update(this);
+            llama_kv_self_update(this);
         }
 
         /// <summary>
         /// Defragment the KV cache. This will be applied:
         ///   - lazily on next llama_decode()
-        ///   - explicitly with llama_kv_cache_update()
+        ///   - explicitly with llama_kv_self_update()
         /// </summary>
         /// <returns></returns>
         public void KvCacheDefrag()
         {
-            llama_kv_cache_defrag(this);
+            llama_kv_self_defrag(this);
         }
 
         /// <summary>
@@ -788,7 +791,7 @@ public LLamaKvCacheViewSafeHandle KvCacheGetDebugView(int maxSequences = 4)
         /// <returns></returns>
         public int KvCacheCountCells()
         {
-            return NativeApi.llama_get_kv_cache_used_cells(this);
+            return NativeApi.llama_kv_self_used_cells(this);
         }
 
         /// <summary>
@@ -798,15 +801,15 @@ public int KvCacheCountCells()
         /// <returns></returns>
         public int KvCacheCountTokens()
         {
-            return NativeApi.llama_get_kv_cache_token_count(this);
+            return NativeApi.llama_kv_self_n_tokens(this);
         }
 
         /// <summary>
         /// Clear the KV cache - both cell info is erased and KV data is zeroed
         /// </summary>
         public void KvCacheClear()
         {
-            NativeApi.llama_kv_cache_clear(this);
+            NativeApi.llama_kv_self_clear(this);
         }
 
         /// <summary>
@@ -817,7 +820,7 @@ public void KvCacheClear()
         /// <param name="p1"></param>
         public void KvCacheRemove(LLamaSeqId seq, LLamaPos p0, LLamaPos p1)
         {
-            NativeApi.llama_kv_cache_seq_rm(this, seq, p0, p1);
+            NativeApi.llama_kv_self_seq_rm(this, seq, p0, p1);
         }
 
         /// <summary>
@@ -831,7 +834,7 @@ public void KvCacheRemove(LLamaSeqId seq, LLamaPos p0, LLamaPos p1)
         /// <param name="p1"></param>
         public void KvCacheSequenceCopy(LLamaSeqId src, LLamaSeqId dest, LLamaPos p0, LLamaPos p1)
         {
-            NativeApi.llama_kv_cache_seq_cp(this, src, dest, p0, p1);
+            NativeApi.llama_kv_self_seq_cp(this, src, dest, p0, p1);
         }
 
         /// <summary>
@@ -840,7 +843,7 @@ public void KvCacheSequenceCopy(LLamaSeqId src, LLamaSeqId dest, LLamaPos p0, LL
         /// <param name="seq"></param>
         public void KvCacheSequenceKeep(LLamaSeqId seq)
         {
-            NativeApi.llama_kv_cache_seq_keep(this, seq);
+            NativeApi.llama_kv_self_seq_keep(this, seq);
         }
 
         /// <summary>
@@ -854,7 +857,10 @@ public void KvCacheSequenceKeep(LLamaSeqId seq)
         /// <param name="delta"></param>
         public void KvCacheSequenceAdd(LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int delta)
         {
-            NativeApi.llama_kv_cache_seq_add(this, seq, p0, p1, delta);
+            if (!KvCacheCanShift)
+                throw new InvalidOperationException("Cannot shift KV cache (KvCacheCanShift=False)");
+
+            NativeApi.llama_kv_self_seq_add(this, seq, p0, p1, delta);
         }
 
         /// <summary>
@@ -869,7 +875,10 @@ public void KvCacheSequenceAdd(LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int del
         /// <param name="divisor"></param>
         public void KvCacheSequenceDivide(LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int divisor)
         {
-            NativeApi.llama_kv_cache_seq_div(this, seq, p0, p1, divisor);
+            if (!KvCacheCanShift)
+                throw new InvalidOperationException("Cannot shift KV cache (KvCacheCanShift=False)");
+
+            NativeApi.llama_kv_self_seq_div(this, seq, p0, p1, divisor);
         }
 
         /// <summary>
@@ -879,7 +888,7 @@ public void KvCacheSequenceDivide(LLamaSeqId seq, LLamaPos p0, LLamaPos p1, int
         /// <returns></returns>
         public LLamaPos KvCacheMaxPosition(LLamaSeqId seq)
         {
-            return NativeApi.llama_kv_cache_seq_pos_max(this, seq);
+            return NativeApi.llama_kv_self_seq_pos_max(this, seq);
         }
         #endregion
     }