Sync llama.cpp API 20250806

JamePeng · JamePeng · commit b4a44550efd1 · 2025-08-06T06:31:48.000+08:00
diff --git a/llama_cpp/llama_cpp.py b/llama_cpp/llama_cpp.py
@@ -262,6 +262,7 @@
 #     LLAMA_VOCAB_PRE_TYPE_SEED_CODER     = 35,
 #     LLAMA_VOCAB_PRE_TYPE_HUNYUAN        = 36,
 #     LLAMA_VOCAB_PRE_TYPE_KIMI_K2        = 37,
+#     LLAMA_VOCAB_PRE_TYPE_HUNYUAN_DENSE  = 38,
 # };
 LLAMA_VOCAB_PRE_TYPE_DEFAULT = 0
 LLAMA_VOCAB_PRE_TYPE_LLAMA3 = 1
@@ -301,6 +302,7 @@
 LLAMA_VOCAB_PRE_TYPE_SEED_CODER = 35
 LLAMA_VOCAB_PRE_TYPE_HUNYUAN  = 36
 LLAMA_VOCAB_PRE_TYPE_KIMI_K2  = 37
+LLAMA_VOCAB_PRE_TYPE_HUNYUAN_DENSE = 38
 
 
 # // note: these values should be synchronized with ggml_rope
@@ -403,6 +405,7 @@
 #     //LLAMA_FTYPE_MOSTLY_Q4_0_8_8      = 35, // removed from gguf files, use Q4_0 and runtime repack
 #     LLAMA_FTYPE_MOSTLY_TQ1_0         = 36, // except 1d tensors
 #     LLAMA_FTYPE_MOSTLY_TQ2_0         = 37, // except 1d tensors
+#     LLAMA_FTYPE_MOSTLY_MXFP4_MOE     = 38, // except 1d tensors
 #
 #     LLAMA_FTYPE_GUESSED = 1024, // not specified in the model file
 # };
@@ -441,6 +444,7 @@
 # LLAMA_FTYPE_MOSTLY_Q4_0_8_8 = 35
 LLAMA_FTYPE_MOSTLY_TQ1_0 = 36
 LLAMA_FTYPE_MOSTLY_TQ2_0 = 37
+LLAMA_FTYPE_MOSTLY_MXFP4_MOE = 38
 LLAMA_FTYPE_GUESSED = 1024
 
 # enum llama_rope_scaling_type {