Add sentencepiece tokenizer support to llm runner (#11645)

larryliu0820 · facebook-github-bot · commit a7b9512ba792 · 2025-06-17T14:35:48.000-07:00
Summary: X-link: meta-pytorch/tokenizers#85 Fixes #11618 Add sentencepiece tokenizer support Pull Request resolved: #11645 Reviewed By: guangy10 Differential Revision: D76789606 Pulled By: larryliu0820
diff --git a/extension/llm/runner/targets.bzl b/extension/llm/runner/targets.bzl
@@ -103,7 +103,7 @@ def define_common_targets():
                 ":text_token_generator" + aten_suffix,
                 "//pytorch/tokenizers:hf_tokenizer",
                 "//pytorch/tokenizers:llama2c_tokenizer",
-                # "//pytorch/tokenizers:sentencepiece", # TODO(larryliu0820) Make sure this compiles in xplat.
+                "//pytorch/tokenizers:sentencepiece",
                 "//pytorch/tokenizers:tiktoken",
             ],
         )
diff --git a/extension/llm/runner/text_llm_runner.cpp b/extension/llm/runner/text_llm_runner.cpp
@@ -14,6 +14,7 @@
 #include <executorch/extension/llm/runner/util.h>
 #include <pytorch/tokenizers/hf_tokenizer.h>
 #include <pytorch/tokenizers/llama2c_tokenizer.h>
+#include <pytorch/tokenizers/sentencepiece.h>
 #include <pytorch/tokenizers/tiktoken.h>
 
 namespace executorch::extension::llm {
@@ -278,6 +279,12 @@ std::unique_ptr<tokenizers::Tokenizer> load_tokenizer(
     return tiktoken_tokenizer;
   }
 
+  auto sp_tokenizer = std::make_unique<::tokenizers::SPTokenizer>();
+  if (sp_tokenizer->load(tokenizer_path) == ::tokenizers::Error::Ok) {
+    ET_LOG(Info, "Loaded Sentencepiece tokenizer");
+    return sp_tokenizer;
+  }
+
   auto bpe_tokenizer = std::make_unique<::tokenizers::Llama2cTokenizer>();
   if (bpe_tokenizer->load(tokenizer_path) == ::tokenizers::Error::Ok) {
     ET_LOG(Info, "Loaded BPE tokenizer");
diff --git a/extension/llm/tokenizers b/extension/llm/tokenizers
@@ -1 +1 @@
-Subproject commit fc32028858020c4fcafe37aaaeaf5d1b480336a2
+Subproject commit ffd2973e8879f64c78f01a3f4aa0f77bdc5a1abe

Original file line number	Diff line number	Diff line change
`@@ -103,7 +103,7 @@ def define_common_targets():`
`103`	`103`	`":text_token_generator" + aten_suffix,`
`104`	`104`	`"//pytorch/tokenizers:hf_tokenizer",`
`105`	`105`	`"//pytorch/tokenizers:llama2c_tokenizer",`
`106`		`- # "//pytorch/tokenizers:sentencepiece", # TODO(larryliu0820) Make sure this compiles in xplat.`
	`106`	`+ "//pytorch/tokenizers:sentencepiece",`
`107`	`107`	`"//pytorch/tokenizers:tiktoken",`
`108`	`108`	`],`
`109`	`109`	`)`