fix(gguf): 兼容 fm9g8b 和 gpt2 词表

YdrMaster · YdrMaster · commit 91ddf73ac635 · 2025-03-04T11:10:55.000+08:00
Signed-off-by: YdrMaster &lt;ydrml@hotmail.com&gt;
diff --git a/gguf/Cargo.toml b/gguf/Cargo.toml
@@ -12,7 +12,7 @@ minijinja = { version = "2.7", default-features = false, features = [
     "serde",
 ] }
 serde = { version = "1.0", features = ["derive"] }
-tokeneer = { git = "https://github.com/InfiniTensor/tokeneer", rev = "c0da02c" }
+tokeneer = { git = "https://github.com/InfiniTensor/tokeneer", rev = "5fc0af8" }
 memmap2 = "0.9"
 
 [dev-dependencies]
diff --git a/gguf/src/tokenizer.rs b/gguf/src/tokenizer.rs
@@ -17,7 +17,8 @@ impl GGufModel<'_> {
     pub fn tokenizer(&self) -> Tokenizer {
         match self.tokenizer_ggml_model().unwrap() {
             "llama" => Tokenizer::bpe_from_gguf(self),
-            "fm9g8b" | "gpt2" => Tokenizer::lpe_from_gguf(self),
+            "gpt2" => Tokenizer::lpe_from_gguf(self, true),
+            "fm9g8b" => Tokenizer::lpe_from_gguf(self, false),
             model => panic!("Unsupported tokenizer model: {model}"),
         }
     }
@@ -95,7 +96,7 @@ impl Tokenizer {
         }
     }
 
-    fn lpe_from_gguf(gguf: &GGufModel) -> Self {
+    fn lpe_from_gguf(gguf: &GGufModel, map_utf8: bool) -> Self {
         let tokens = gguf.tokenizer_ggml_tokens().unwrap();
 
         let token_type = gguf.tokenizer_ggml_token_type().unwrap();
@@ -126,7 +127,7 @@ impl Tokenizer {
                 bos
             });
 
-        let tokeneer = Tokeneer::new(Lpe::new(vocabs, token_type, unk));
+        let tokeneer = Tokeneer::new(Lpe::new(vocabs, token_type, unk, map_utf8));
         let (en_replace, de_replace) = detective.build_map();
         Self {
             tokenize: Box::new(tokeneer),

Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,8 @@ impl GGufModel<'_> {`
`17`	`17`	`pub fn tokenizer(&self) -> Tokenizer {`
`18`	`18`	`match self.tokenizer_ggml_model().unwrap() {`
`19`	`19`	`"llama" => Tokenizer::bpe_from_gguf(self),`
`20`		`- "fm9g8b" \| "gpt2" => Tokenizer::lpe_from_gguf(self),`
	`20`	`+ "gpt2" => Tokenizer::lpe_from_gguf(self, true),`
	`21`	`+ "fm9g8b" => Tokenizer::lpe_from_gguf(self, false),`
`21`	`22`	`model => panic!("Unsupported tokenizer model: {model}"),`
`22`	`23`	`}`
`23`	`24`	`}`
`@@ -95,7 +96,7 @@ impl Tokenizer {`
`95`	`96`	`}`
`96`	`97`	`}`
`97`	`98`
`98`		`- fn lpe_from_gguf(gguf: &GGufModel) -> Self {`
	`99`	`+ fn lpe_from_gguf(gguf: &GGufModel, map_utf8: bool) -> Self {`
`99`	`100`	`let tokens = gguf.tokenizer_ggml_tokens().unwrap();`
`100`	`101`
`101`	`102`	`let token_type = gguf.tokenizer_ggml_token_type().unwrap();`
`@@ -126,7 +127,7 @@ impl Tokenizer {`
`126`	`127`	`bos`
`127`	`128`	`});`
`128`	`129`
`129`		`- let tokeneer = Tokeneer::new(Lpe::new(vocabs, token_type, unk));`
	`130`	`+ let tokeneer = Tokeneer::new(Lpe::new(vocabs, token_type, unk, map_utf8));`
`130`	`131`	`let (en_replace, de_replace) = detective.build_map();`
`131`	`132`	`Self {`
`132`	`133`	`tokenize: Box::new(tokeneer),`