Feat/sklearn scorer (#59)

JakeRaskind · Samoed · web-flow · commit 3d1862614e78 · 2025-01-21T23:27:15.000+03:00
* add_logit_adaptivness

* Update __init__.py

* Update logit_adaptivness.py

* Update __init__.py

* Update __init__.py

* Update __init__.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update logit_adaptivness.py

* Update regexp.py

* Update logit_adaptivness.py

* Update __init__.py

* update to multilabel

* Update adaptive.py

* update

* update

* .

* .

* .

* .

* Update argmax.py

* Update adaptive.py

* Update adaptive.py

* Update argmax.py

* Update threshold.py

* Update threshold.py

* Update argmax.py

* Update argmax.py

* Update threshold.py

* Update base.py

* Update custom_types.py

* Update threshold.py

* Update argmax.py

* Update threshold.py

* Update argmax.py

* Update __init__.py

* up_to_date

* .

* .

* .

* add sklearn scorer

* Delete autointent/modules/prediction/adaptive.py

* Rename scorer.py to scorer.py

* Rename __init__.py to __init__.py

* add docstrings

* Update __init__.py

* Update scorer.py

* Update scorer.py

* Update __init__.py

* Update scorer.py

* Update scorer.py

* Update __init__.py

* Update scorer.py

* Update scorer.py

* Update scorer.py

* Update __init__.py

* Update scorer.py

* update after merge

* add test

* update

* upd tests

* fix sklearn test

* update args

* update args

---------

Co-authored-by: Roman Solomatin &lt;36135455+Samoed@users.noreply.github.com&gt;
diff --git a/autointent/_embedder.py b/autointent/_embedder.py
@@ -12,6 +12,7 @@
 
 import numpy as np
 import numpy.typing as npt
+import torch
 from appdirs import user_cache_dir
 from sentence_transformers import SentenceTransformer
 
@@ -58,6 +59,7 @@ class Embedder:
     """
 
     metadata_dict_name: str = "metadata.json"
+    dump_dir: Path | None = None
 
     def __init__(
         self,
@@ -70,7 +72,7 @@ def __init__(
         """
         Initialize the Embedder.
 
-        :param model_name: Path to a local model directory or a Hugging Face model name.
+        :param model_name_or_path: Path to a local model directory or a Hugging Face model name.
         :param device: Device to run the model on (e.g., "cpu", "cuda").
         :param batch_size: Batch size for embedding calculations.
         :param max_length: Maximum sequence length for the embedding model.
@@ -103,11 +105,13 @@ def clear_ram(self) -> None:
         self.logger.debug("Clearing embedder %s from memory", self.model_name)
         self.embedding_model.cpu()
         del self.embedding_model
+        torch.cuda.empty_cache()
 
     def delete(self) -> None:
         """Delete the embedding model and its associated directory."""
         self.clear_ram()
-        shutil.rmtree(self.dump_dir)
+        if self.dump_dir is not None:
+            shutil.rmtree(self.dump_dir)
 
     def dump(self, path: Path) -> None:
         """
diff --git a/autointent/modules/__init__.py b/autointent/modules/__init__.py
@@ -11,7 +11,7 @@
     TunableDecision,
 )
 from .embedding import RetrievalEmbedding
-from .scoring import DescriptionScorer, DNNCScorer, KNNScorer, LinearScorer, MLKnnScorer, RerankScorer
+from .scoring import DescriptionScorer, DNNCScorer, KNNScorer, LinearScorer, MLKnnScorer, RerankScorer, SklearnScorer
 
 T = TypeVar("T", bound=Module)
 
@@ -25,11 +25,23 @@ def _create_modules_dict(modules: list[type[T]]) -> dict[str, type[T]]:
 RETRIEVAL_MODULES_MULTILABEL = RETRIEVAL_MODULES_MULTICLASS
 
 SCORING_MODULES_MULTICLASS: dict[str, type[ScoringModule]] = _create_modules_dict(
-    [DNNCScorer, KNNScorer, LinearScorer, DescriptionScorer, RerankScorer]
+    [
+        DNNCScorer,
+        KNNScorer,
+        LinearScorer,
+        DescriptionScorer,
+        RerankScorer,
+        SklearnScorer,
+    ]
 )
 
 SCORING_MODULES_MULTILABEL: dict[str, type[ScoringModule]] = _create_modules_dict(
-    [MLKnnScorer, LinearScorer, DescriptionScorer],
+    [
+        MLKnnScorer,
+        LinearScorer,
+        DescriptionScorer,
+        SklearnScorer,
+    ],
 )
 
 PREDICTION_MODULES_MULTICLASS: dict[str, type[DecisionModule]] = _create_modules_dict(
diff --git a/autointent/modules/scoring/__init__.py b/autointent/modules/scoring/__init__.py
@@ -1,10 +1,9 @@
-"""These modules take utterance as input and output predicted probabilities for each intent."""
-
 from ._description import DescriptionScorer
 from ._dnnc import DNNCScorer
 from ._knn import KNNScorer, RerankScorer
 from ._linear import LinearScorer
 from ._mlknn import MLKnnScorer
+from ._sklearn import SklearnScorer
 
 __all__ = [
     "DNNCScorer",
@@ -13,4 +12,6 @@
     "LinearScorer",
     "MLKnnScorer",
     "RerankScorer",
+    "ScoringModule",
+    "SklearnScorer",
 ]
diff --git a/autointent/modules/scoring/_sklearn/__init__.py b/autointent/modules/scoring/_sklearn/__init__.py
@@ -0,0 +1,3 @@
+from .sklearn_scorer import SklearnScorer
+
+__all__ = ["SklearnScorer"]
diff --git a/autointent/modules/scoring/_sklearn/sklearn_scorer.py b/autointent/modules/scoring/_sklearn/sklearn_scorer.py
@@ -0,0 +1,152 @@
+import logging
+from typing import Any
+
+import numpy as np
+import numpy.typing as npt
+from sklearn.linear_model import LogisticRegression
+from sklearn.multioutput import MultiOutputClassifier
+from sklearn.utils import all_estimators
+from typing_extensions import Self
+
+from autointent import Context, Embedder
+from autointent.custom_types import LabelType
+from autointent.modules.abc import ScoringModule
+
+logger = logging.getLogger(__name__)
+AVAILABLE_CLASSIFIERS = {
+    name: class_
+    for name, class_ in all_estimators(
+        type_filter=[
+            # remove transformer (e.g. TfidfTransformer) from the list of available classifiers
+            "classifier",
+            "regressor",
+            "cluster",
+        ]
+    )
+    if hasattr(class_, "predict_proba")
+}
+
+
+class SklearnScorer(ScoringModule):
+    """
+    Scoring module for classification using sklearn classifiers with implemented predict_proba() method.
+
+    This module uses embeddings generated from a transformer model to train
+    chosen sklearn classifier for intent classification.
+
+    :ivar name: Name of the scorer, defaults to "linear".
+    """
+
+    name = "sklearn"
+
+    def __init__(
+        self,
+        embedder_name: str,
+        clf_name: str,
+        embedder_batch_size: int = 32,
+        embedder_max_length: int | None = None,
+        embedder_device: str = "cpu",
+        embedder_use_cache: bool = True,
+        clf_args: dict[str, Any] | None = None,
+    ) -> None:
+        """
+        Initialize the SklearnScorer.
+
+        :param embedder_name: Name of the embedder model.
+        :param clf_name: Name of the sklearn classifier to use.
+        :param clf_args: dictionary with the chosen sklearn classifier arguments, defaults to {}.
+        :param embedder_batch_size: Batch size for embedding generation, defaults to 32.
+        :param embedder_max_length: Maximum sequence length for embedding, or None for default.
+        :param embedder_device: Device to run operations on, e.g., "cpu" or "cuda".
+        :param embedder_use_cache: Flag indicating whether to cache intermediate embeddings.
+        """
+        self.embedder_name = embedder_name
+        self.clf_name = clf_name
+        self.clf_args = clf_args or {}
+        self.embedder_batch_size = embedder_batch_size
+        self.embedder_max_length = embedder_max_length
+        self.embedder_device = embedder_device
+        self.embedder_use_cache = embedder_use_cache
+
+    @classmethod
+    def from_context(
+        cls,
+        context: Context,
+        clf_name: str = LogisticRegression.__name__,
+        clf_args: dict[str, Any] | None = None,
+        embedder_name: str | None = None,
+    ) -> Self:
+        """
+        Create a SklearnScorer instance using a Context object.
+
+        :param context: Context containing configurations and utilities.
+        :param clf_name: Name of the sklearn classifier to use.
+        :param clf_args: dictionary with the chosen sklearn classifier arguments, defaults to {}.
+        :param embedder_name: Name of the embedder, or None to use the best embedder.
+        :return: Initialized SklearnScorer instance.
+        """
+        if embedder_name is None:
+            embedder_name = context.optimization_info.get_best_embedder()
+
+        return cls(
+            embedder_name=embedder_name,
+            embedder_device=context.get_device(),
+            embedder_batch_size=context.get_batch_size(),
+            embedder_max_length=context.get_max_length(),
+            embedder_use_cache=context.get_use_cache(),
+            clf_name=clf_name,
+            clf_args=clf_args,
+        )
+
+    def fit(
+        self,
+        utterances: list[str],
+        labels: list[LabelType],
+    ) -> None:
+        """
+        Train the chosen sklearn classifier.
+
+        :param utterances: List of training utterances.
+        :param labels: List of labels corresponding to the utterances.
+        :raises ValueError: If the vector index mismatches the provided utterances.
+        """
+        self._multilabel = isinstance(labels[0], list)
+
+        embedder = Embedder(
+            device=self.embedder_device,
+            model_name_or_path=self.embedder_name,
+            batch_size=self.embedder_batch_size,
+            max_length=self.embedder_max_length,
+            use_cache=self.embedder_use_cache,
+        )
+        features = embedder.embed(utterances)
+        if AVAILABLE_CLASSIFIERS.get(self.clf_name):
+            base_clf = AVAILABLE_CLASSIFIERS[self.clf_name](**self.clf_args)
+        else:
+            msg = f"Class {self.clf_name} does not exist in sklearn or does not have predict_proba method"
+            logger.error(msg)
+            raise ValueError(msg)
+
+        clf = MultiOutputClassifier(base_clf) if self._multilabel else base_clf
+
+        clf.fit(features, labels)
+
+        self._clf = clf
+        self._embedder = embedder
+
+    def predict(self, utterances: list[str]) -> npt.NDArray[Any]:
+        """
+        Predict probabilities for the given utterances.
+
+        :param utterances: List of query utterances.
+        :return: Array of predicted probabilities for each class.
+        """
+        features = self._embedder.embed(utterances)
+        probas = self._clf.predict_proba(features)
+        if self._multilabel:
+            probas = np.stack(probas, axis=1)[..., 1]
+        return probas  # type: ignore[no-any-return]
+
+    def clear_cache(self) -> None:
+        """Clear cached data in memory used by the embedder."""
+        self._embedder.delete()
diff --git a/tests/assets/configs/multiclass.yaml b/tests/assets/configs/multiclass.yaml
@@ -19,6 +19,12 @@
         - avsolatorio/GIST-small-Embedding-v0
       k: [1, 3]
       train_head: [false, true]
+    - module_name: sklearn
+      embedder_name:
+        - sergeyzh/rubert-tiny-turbo
+      clf_name:
+        - LogisticRegression
+        - RandomForestClassifier
     - module_name: rerank
       k: [ 5, 10 ]
       weights: [uniform, distance, closest]
diff --git a/tests/assets/configs/multilabel.yaml b/tests/assets/configs/multilabel.yaml
@@ -15,6 +15,12 @@
     - module_name: linear
     - module_name: mlknn
       k: [5]
+    - module_name: sklearn
+      embedder_name:
+      - sergeyzh/rubert-tiny-turbo
+      clf_name:
+       - LogisticRegression
+       - RandomForestClassifier
     - module_name: rerank
       k: [ 5, 10 ]
       weights: [ uniform, distance, closest ]
diff --git a/tests/modules/scoring/test_sklearn.py b/tests/modules/scoring/test_sklearn.py
@@ -0,0 +1,58 @@
+import numpy as np
+
+from autointent.context.data_handler import DataHandler
+from autointent.modules import SklearnScorer
+
+
+def test_base_sklearn(dataset):
+    data_handler = DataHandler(dataset)
+
+    scorer = SklearnScorer(embedder_name="sergeyzh/rubert-tiny-turbo", clf_name="LogisticRegression")
+
+    scorer.fit(data_handler.train_utterances(0), data_handler.train_labels(0))
+    test_data = [
+        "why is there a hold on my american saving bank account",
+        "i am nost sure why my account is blocked",
+        "why is there a hold on my capital one checking account",
+        "i think my account is blocked but i do not know the reason",
+        "can you tell me why is my bank account frozen",
+    ]
+    predictions = scorer.predict(test_data)
+
+    np.testing.assert_almost_equal(
+        np.array(
+            [
+                [
+                    0.23748632,
+                    0.39067508,
+                    0.2393372,
+                    0.13250139,
+                ],
+                [0.23913757, 0.37610976, 0.24952359, 0.13522908],
+                [
+                    0.25714506,
+                    0.34984371,
+                    0.25495681,
+                    0.13805442,
+                ],
+                [
+                    0.2571957,
+                    0.34850898,
+                    0.25346288,
+                    0.14083245,
+                ],
+                [
+                    0.23885061,
+                    0.41527567,
+                    0.21830964,
+                    0.12756408,
+                ],
+            ],
+        ),
+        predictions,
+        decimal=2,
+    )
+
+    predictions, metadata = scorer.predict_with_metadata(test_data)
+    assert len(predictions) == len(test_data)
+    assert metadata is None
diff --git a/tests/nodes/test_scoring.py b/tests/nodes/test_scoring.py
@@ -36,6 +36,11 @@ def test_scoring_multiclass(embedding_optimizer_multiclass):
                 "k": [3],
                 "train_head": [False, True],
             },
+            {
+                "module_name": "sklearn",
+                "embedder_name": ["sergeyzh/rubert-tiny-turbo"],
+                "clf_name": ["LogisticRegression", "RandomForestClassifier"],
+            },
             {
                 "module_name": "description",
                 "temperature": [1.0, 0.5, 0.1, 0.05],
@@ -89,6 +94,14 @@ def test_scoring_multilabel(embedding_optimizer_multilabel):
                 "embedder_name": ["sergeyzh/rubert-tiny-turbo"],
             },
             {"module_name": "mlknn", "k": [5], "embedder_name": ["sergeyzh/rubert-tiny-turbo"]},
+            {
+                "module_name": "sklearn",
+                "embedder_name": ["sergeyzh/rubert-tiny-turbo"],
+                "clf_name": [
+                    "LogisticRegression",
+                    "RandomForestClassifier",
+                ],
+            },
             {
                 "module_name": "rerank",
                 "weights": ["uniform", "distance", "closest"],

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from .sklearn_scorer import SklearnScorer`
	`2`	`+`
	`3`	`+__all__ = ["SklearnScorer"]`