Merge branch 'main' into vocquant

stephantul · stephantul · commit 62324f94cc7d · 2025-07-14T11:30:57.000+02:00
diff --git a/model2vec/tokenizer/tokenizer.py b/model2vec/tokenizer/tokenizer.py
@@ -10,7 +10,7 @@
 from tokenizers.pre_tokenizers import (
     PreTokenizer,
 )
-from transformers import PreTrainedTokenizerFast
+from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
 
 from model2vec.tokenizer.datamodels import Token
 from model2vec.tokenizer.model import process_tokenizer
@@ -392,4 +392,7 @@ def create_tokenizer(
     cleaned_vocabulary, backend_tokenizer = clean_and_create_vocabulary(tokenizer, vocabulary, token_remove_regex)
     new_tokenizer = replace_vocabulary(backend_tokenizer, cleaned_vocabulary, unk_token, pad_token)
 
-    return PreTrainedTokenizerFast(tokenizer_object=new_tokenizer)
+    tokenizer_object = PreTrainedTokenizerFast(tokenizer_object=new_tokenizer)
+    tokenizer_object.add_special_tokens({"pad_token": "[PAD]", "unk_token": "[UNK]"})
+
+    return tokenizer_object
diff --git a/pyproject.toml b/pyproject.toml
@@ -59,7 +59,7 @@ dev = [
     "ruff",
 ]
 
-distill = ["torch", "transformers<=4.52.1", "scikit-learn"]
+distill = ["torch", "transformers", "scikit-learn"]
 onnx = ["onnx", "torch"]
 # train also installs inference
 train = ["torch", "lightning", "scikit-learn", "skops"]
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -59,7 +59,7 @@ dev = [`
`59`	`59`	`"ruff",`
`60`	`60`	`]`
`61`	`61`
`62`		`-distill = ["torch", "transformers<=4.52.1", "scikit-learn"]`
	`62`	`+distill = ["torch", "transformers", "scikit-learn"]`
`63`	`63`	`onnx = ["onnx", "torch"]`
`64`	`64`	`# train also installs inference`
`65`	`65`	`train = ["torch", "lightning", "scikit-learn", "skops"]`