Update to 11dd5a44eb180e1d69fac24d3852b5222d66fb7f

martindevans · martindevans · commit 992aec8d5ecf · 2025-07-26T12:48:43.000+01:00
diff --git a/LLama/Extensions/IContextParamsExtensions.cs b/LLama/Extensions/IContextParamsExtensions.cs
@@ -60,6 +60,8 @@ public static void ToLlamaContextParams(this IContextParams @params, out LLamaCo
                 result.swa_full = @params.SwaFull.Value;
             if (@params.OpOffload.HasValue)
                 result.op_offload = @params.OpOffload.Value;
+            if (@params.KVUnified.HasValue)
+                result.kv_unified = @params.KVUnified.Value;
         }
 
         private static int Threads(int? value)
diff --git a/LLama/Native/LLamaContextParams.cs b/LLama/Native/LLamaContextParams.cs
@@ -201,6 +201,19 @@ public bool swa_full
         }
         private sbyte _swa_full;
 
+        /// <summary>
+        /// use a unified buffer across the input sequences when computing the attention.
+        /// try to disable when n_seq_max > 1 for improved performance when the sequences do not share a large prefix
+        /// <br />
+        /// ref: https://github.com/ggml-org/llama.cpp/pull/14363
+        /// </summary>
+        public bool kv_unified
+        {
+            readonly get => Convert.ToBoolean(_kv_unified);
+            set => _kv_unified = Convert.ToSByte(value);
+        }
+        private sbyte _kv_unified;
+
         /// <summary>
         /// Get the default LLamaContextParams
         /// </summary>
diff --git a/LLama/Native/LLamaTimings.cs b/LLama/Native/LLamaTimings.cs
@@ -38,6 +38,11 @@ public struct LLamaPerfContextTimings
     /// number of eval calls
     /// </summary>
     private int n_eval;
+
+    /// <summary>
+    /// number of times a ggml compute graph had been reused
+    /// </summary>
+    private int n_reused;
     
     /// <summary>
     /// Timestamp when reset was last called
diff --git a/LLama/Native/LLamaVocabNative.cs b/LLama/Native/LLamaVocabNative.cs
@@ -94,6 +94,14 @@ internal struct LLamaVocabNative
     [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
     public static extern unsafe LLamaToken llama_vocab_pad(LLamaVocabNative* vocab);
 
+    /// <summary>
+    /// mask
+    /// </summary>
+    /// <param name="vocab"></param>
+    /// <returns></returns>
+    [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
+    public static extern unsafe LLamaToken llama_vocab_mask(LLamaVocabNative* vocab);
+
     [DllImport(NativeApi.libraryName, CallingConvention = CallingConvention.Cdecl)]
     public static extern unsafe LLamaToken llama_vocab_fim_pre(LLamaVocabNative* vocab);
 
diff --git a/LLama/Native/LLamaVocabPreType.cs b/LLama/Native/LLamaVocabPreType.cs
diff --git a/LLama/Native/LLamaVocabType.cs b/LLama/Native/LLamaVocabType.cs
@@ -35,4 +35,9 @@ public enum LLamaVocabType
     /// RWKV tokenizer based on greedy tokenization
     /// </summary>
     RWKV = 5,
+
+    /// <summary>
+    /// PLaMo-2 tokenizer based on Aho-Corasick with dynamic programming
+    /// </summary>
+    PLAMO2 = 6
 }
diff --git a/LLama/Native/SafeLlamaModelHandle.cs b/LLama/Native/SafeLlamaModelHandle.cs
@@ -818,6 +818,20 @@ public LLamaToken? Pad
                 }
             }
 
+            /// <summary>
+            /// Get the masking token for this model
+            /// </summary>
+            public LLamaToken? Mask
+            {
+                get
+                {
+                    unsafe
+                    {
+                        return Normalize(LLamaVocabNative.llama_vocab_mask(VocabNative));
+                    }
+                }
+            }
+
             /// <summary>
             /// Get the sentence separator token for this model
             /// </summary>

Original file line number	Diff line number	Diff line change
`@@ -60,6 +60,8 @@ public static void ToLlamaContextParams(this IContextParams @params, out LLamaCo`
`60`	`60`	`result.swa_full = @params.SwaFull.Value;`
`61`	`61`	`if (@params.OpOffload.HasValue)`
`62`	`62`	`result.op_offload = @params.OpOffload.Value;`
	`63`	`+ if (@params.KVUnified.HasValue)`
	`64`	`+ result.kv_unified = @params.KVUnified.Value;`
`63`	`65`	`}`
`64`	`66`
`65`	`67`	`private static int Threads(int? value)`