fix: use local tokenizer as an option

ChenZiHong-Gavin · ChenZiHong-Gavin · commit 4c1ef09c4b28 · 2025-08-21T16:00:01.000+08:00
diff --git a/graphgen/generate.py b/graphgen/generate.py
@@ -72,15 +72,18 @@ def main():
         ),
     )
 
+    tokenizer_instance = Tokenizer(model_name=config["tokenizer"])
     synthesizer_llm_client = OpenAIModel(
         model_name=os.getenv("SYNTHESIZER_MODEL"),
         api_key=os.getenv("SYNTHESIZER_API_KEY"),
         base_url=os.getenv("SYNTHESIZER_BASE_URL"),
+        tokenizer_instance=tokenizer_instance,
     )
     trainee_llm_client = OpenAIModel(
         model_name=os.getenv("TRAINEE_MODEL"),
         api_key=os.getenv("TRAINEE_API_KEY"),
         base_url=os.getenv("TRAINEE_BASE_URL"),
+        tokenizer_instance=tokenizer_instance,
     )
 
     graph_gen = GraphGen(
@@ -89,7 +92,7 @@ def main():
         synthesizer_llm_client=synthesizer_llm_client,
         trainee_llm_client=trainee_llm_client,
         search_config=config["search"],
-        tokenizer_instance=Tokenizer(model_name=config["tokenizer"]),
+        tokenizer_instance=tokenizer_instance,
     )
 
     graph_gen.insert(data, config["input_data_type"])
diff --git a/graphgen/models/llm/openai_model.py b/graphgen/models/llm/openai_model.py
@@ -55,6 +55,8 @@ class OpenAIModel(TopkTokenModel):
     rpm: RPM = field(default_factory=lambda: RPM(rpm=1000))
     tpm: TPM = field(default_factory=lambda: TPM(tpm=50000))
 
+    tokenizer_instance: Tokenizer = field(default_factory=Tokenizer)
+
     def __post_init__(self):
         assert self.api_key is not None, "Please provide api key to access openai api."
         self.client = AsyncOpenAI(
@@ -125,8 +127,9 @@ async def generate_answer(
 
         prompt_tokens = 0
         for message in kwargs["messages"]:
-            # TODO: need to use local tokenizer to avoid network call
-            prompt_tokens += len(Tokenizer().encode_string(message["content"]))
+            prompt_tokens += len(
+                self.tokenizer_instance.encode_string(message["content"])
+            )
         estimated_tokens = prompt_tokens + kwargs["max_tokens"]
 
         if self.request_limit:

Original file line number	Diff line number	Diff line change
`@@ -72,15 +72,18 @@ def main():`
`72`	`72`	`),`
`73`	`73`	`)`
`74`	`74`
	`75`	`+ tokenizer_instance = Tokenizer(model_name=config["tokenizer"])`
`75`	`76`	`synthesizer_llm_client = OpenAIModel(`
`76`	`77`	`model_name=os.getenv("SYNTHESIZER_MODEL"),`
`77`	`78`	`api_key=os.getenv("SYNTHESIZER_API_KEY"),`
`78`	`79`	`base_url=os.getenv("SYNTHESIZER_BASE_URL"),`
	`80`	`+ tokenizer_instance=tokenizer_instance,`
`79`	`81`	`)`
`80`	`82`	`trainee_llm_client = OpenAIModel(`
`81`	`83`	`model_name=os.getenv("TRAINEE_MODEL"),`
`82`	`84`	`api_key=os.getenv("TRAINEE_API_KEY"),`
`83`	`85`	`base_url=os.getenv("TRAINEE_BASE_URL"),`
	`86`	`+ tokenizer_instance=tokenizer_instance,`
`84`	`87`	`)`
`85`	`88`
`86`	`89`	`graph_gen = GraphGen(`
`@@ -89,7 +92,7 @@ def main():`
`89`	`92`	`synthesizer_llm_client=synthesizer_llm_client,`
`90`	`93`	`trainee_llm_client=trainee_llm_client,`
`91`	`94`	`search_config=config["search"],`
`92`		`- tokenizer_instance=Tokenizer(model_name=config["tokenizer"]),`
	`95`	`+ tokenizer_instance=tokenizer_instance,`
`93`	`96`	`)`
`94`	`97`
`95`	`98`	`graph_gen.insert(data, config["input_data_type"])`