Deprecated Python 3.9

Pringled · Pringled · commit a252e347179b · 2025-12-30T11:46:26.000+01:00
diff --git a/.github/workflows/ci.yaml b/.github/workflows/ci.yaml
@@ -10,7 +10,7 @@ jobs:
     strategy:
       matrix:
         os: ["ubuntu-latest"]
-        python-version: ["3.9", "3.10", "3.11", "3.12", "3.13"]
+        python-version: ["3.10", "3.11", "3.12", "3.13"]
       fail-fast: false
 
     steps:
diff --git a/model2vec/distill/distillation.py b/model2vec/distill/distillation.py
@@ -3,7 +3,7 @@
 import logging
 import os
 import re
-from typing import Optional, cast
+from typing import cast
 
 import numpy as np
 from huggingface_hub.hf_api import model_info
@@ -87,8 +87,8 @@ def distill_from_model(
     if not all_tokens:
         raise ValueError("The vocabulary is empty after preprocessing. Please check your token_remove_pattern.")
 
-    unk_token = cast(Optional[str], tokenizer.special_tokens_map.get("unk_token"))
-    pad_token = cast(Optional[str], tokenizer.special_tokens_map.get("pad_token"))
+    unk_token = cast(str | None, tokenizer.special_tokens_map.get("unk_token"))
+    pad_token = cast(str | None, tokenizer.special_tokens_map.get("pad_token"))
 
     # Weird if to satsify mypy
     if pad_token is None:
diff --git a/model2vec/distill/inference.py b/model2vec/distill/inference.py
@@ -1,11 +1,10 @@
-# -*- coding: utf-8 -*-
 from __future__ import annotations
 
 import inspect
 import logging
 from enum import Enum
 from pathlib import Path
-from typing import Literal, Union
+from typing import Literal
 
 import numpy as np
 import torch
@@ -17,8 +16,8 @@
 
 logger = logging.getLogger(__name__)
 
-PathLike = Union[Path, str]
-PCADimType = Union[int, None, float, Literal["auto"]]
+PathLike = Path | str
+PCADimType = int | None | float | Literal["auto"]
 
 _DEFAULT_BATCH_SIZE = 256
 
diff --git a/model2vec/inference/model.py b/model2vec/inference/model.py
@@ -1,9 +1,10 @@
 from __future__ import annotations
 
 import re
+from collections.abc import Sequence
 from pathlib import Path
 from tempfile import TemporaryDirectory
-from typing import Sequence, TypeVar, Union, cast
+from typing import TypeVar, cast
 
 import huggingface_hub
 import numpy as np
@@ -293,14 +294,14 @@ def evaluate_single_or_multi_label(
     """
     if _is_multi_label_shaped(y):
         # Cast because the type checker doesn't understand that y is a list of lists.
-        y = cast(Union[list[list[str]], list[list[int]]], y)
+        y = cast(list[list[str]] | list[list[int]], y)
         classes = sorted(set([label for labels in y for label in labels]))
         mlb = MultiLabelBinarizer(classes=classes)
         y_transformed = mlb.fit_transform(y)
         predictions_transformed = mlb.transform(predictions)
     else:
         if all(isinstance(label, (str, int)) for label in y):
-            y = cast(Union[list[str], list[int]], y)
+            y = cast(list[str] | list[int], y)
             classes = sorted(set(y))
         y_transformed = np.array(y)
         predictions_transformed = np.array(predictions)
diff --git a/model2vec/model.py b/model2vec/model.py
@@ -2,10 +2,11 @@
 
 import math
 import os
+from collections.abc import Iterator, Sequence
 from logging import getLogger
 from pathlib import Path
 from tempfile import TemporaryDirectory
-from typing import Any, Iterator, Sequence, Union, overload
+from typing import Any, overload
 
 import numpy as np
 from joblib import delayed
@@ -15,7 +16,7 @@
 from model2vec.quantization import DType, quantize_and_reduce_dim
 from model2vec.utils import ProgressParallel
 
-PathLike = Union[Path, str]
+PathLike = Path | str
 
 logger = getLogger(__name__)
 
diff --git a/model2vec/tokenizer/tokenizer.py b/model2vec/tokenizer/tokenizer.py
@@ -3,7 +3,7 @@
 import json
 import logging
 import re
-from typing import Any, Optional, cast
+from typing import Any, cast
 
 from tokenizers import Tokenizer
 from tokenizers.normalizers import Normalizer
@@ -387,8 +387,8 @@ def create_tokenizer(
     :param token_remove_regex: The regex to use to remove tokens from the vocabulary.
     :return: The created tokenizer.
     """
-    unk_token = cast(Optional[str], tokenizer.special_tokens_map.get("unk_token"))
-    pad_token = cast(Optional[str], tokenizer.special_tokens_map.get("pad_token"))
+    unk_token = cast(str | None, tokenizer.special_tokens_map.get("unk_token"))
+    pad_token = cast(str | None, tokenizer.special_tokens_map.get("pad_token"))
     cleaned_vocabulary, backend_tokenizer = clean_and_create_vocabulary(tokenizer, vocabulary, token_remove_regex)
     new_tokenizer = replace_vocabulary(backend_tokenizer, cleaned_vocabulary, unk_token, pad_token)
 
diff --git a/model2vec/utils.py b/model2vec/utils.py
@@ -1,11 +1,11 @@
-# -*- coding: utf-8 -*-
 from __future__ import annotations
 
 import logging
 import re
+from collections.abc import Iterator
 from importlib import import_module
 from importlib.metadata import metadata
-from typing import Any, Iterator, Protocol
+from typing import Any, Protocol
 
 import numpy as np
 from joblib import Parallel
diff --git a/pyproject.toml b/pyproject.toml
@@ -3,7 +3,7 @@ name = "model2vec"
 description = "Fast State-of-the-Art Static Embeddings"
 readme = { file = "README.md", content-type = "text/markdown" }
 license = { file = "LICENSE" }
-requires-python = ">=3.9"
+requires-python = ">=3.10"
 authors = [{ name = "Stéphan Tulkens", email = "stephantul@gmail.com"}, {name = "Thomas van Dongen", email = "thomas123@live.nl"}]
 dynamic = ["version"]
 
@@ -15,7 +15,6 @@ classifiers = [
     "Topic :: Software Development :: Libraries",
     "License :: OSI Approved :: MIT License",
     "Programming Language :: Python :: 3 :: Only",
-    "Programming Language :: Python :: 3.9",
     "Programming Language :: Python :: 3.10",
     "Programming Language :: Python :: 3.11",
     "Programming Language :: Python :: 3.12",
diff --git a/uv.lock b/uv.lock