fix: add trust_remote_code=True to AutoTokenizer for embedqa model (#1461)

jioffe502 · claude · web-flow · commit 233505e0611d · 2026-03-02T14:34:46.000-05:00
Signed-off-by: Jacob Ioffe &lt;jioffe@nvidia.com&gt;
Co-authored-by: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/nemo_retriever/src/nemo_retriever/model/local/llama_nemotron_embed_1b_v2_embedder.py b/nemo_retriever/src/nemo_retriever/model/local/llama_nemotron_embed_1b_v2_embedder.py
@@ -45,7 +45,7 @@ def __post_init__(self) -> None:
         MODEL_ID = self.model_id or "nvidia/llama-3.2-nv-embedqa-1b-v2"
         dev = torch.device(self.device or ("cuda" if torch.cuda.is_available() else "cpu"))
         hf_cache_dir = self.hf_cache_dir or str(Path.home() / ".cache" / "huggingface")
-        self._tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, cache_dir=hf_cache_dir)
+        self._tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True, cache_dir=hf_cache_dir)
         self._model = AutoModel.from_pretrained(MODEL_ID, trust_remote_code=True, cache_dir=hf_cache_dir)
         self._model = self._model.to(dev)
         self._model.eval()