Keep vocab probs input precision for UnigramTokenizer. This fixes ARM plugin (#600)

pavel-esir · web-flow · commit 2ab68bea0a93 · 2026-01-29T16:12:30.000Z
diff --git a/python/openvino_tokenizers/tokenizer_pipeline.py b/python/openvino_tokenizers/tokenizer_pipeline.py
@@ -820,10 +820,14 @@ def from_hf_json(cls, tokenizer_json: dict[str, Any]) -> "UnigramModelStep":
         )
 
     def get_ov_subgraph(self, input_nodes: list[Output]) -> list[Output]:
+        # Keep precision and not compress to f16 on ARM devices.
+        const_vocab_logprobs_node =  make_constant_node(np.array(self.vocab_logprobs, dtype=np.float32), Type.f32)
+        const_vocab_logprobs_node.get_rt_info()["precise_0"] = ""
+
         input_nodes.extend(
             (
                 *create_string_constant_node(self.vocab),
-                make_constant_node(np.array(self.vocab_logprobs, dtype=np.float32), Type.f32),
+               const_vocab_logprobs_node,
             )
         )
         return (

Original file line number	Diff line number	Diff line change
`@@ -820,10 +820,14 @@ def from_hf_json(cls, tokenizer_json: dict[str, Any]) -> "UnigramModelStep":`
`820`	`820`	`)`
`821`	`821`
`822`	`822`	`def get_ov_subgraph(self, input_nodes: list[Output]) -> list[Output]:`
	`823`	`+ # Keep precision and not compress to f16 on ARM devices.`
	`824`	`+ const_vocab_logprobs_node = make_constant_node(np.array(self.vocab_logprobs, dtype=np.float32), Type.f32)`
	`825`	`+ const_vocab_logprobs_node.get_rt_info()["precise_0"] = ""`
	`826`	`+`
`823`	`827`	`input_nodes.extend(`
`824`	`828`	`(`
`825`	`829`	`*create_string_constant_node(self.vocab),`
`826`		`- make_constant_node(np.array(self.vocab_logprobs, dtype=np.float32), Type.f32),`
	`830`	`+ const_vocab_logprobs_node,`
`827`	`831`	`)`
`828`	`832`	`)`
`829`	`833`	`return (`