Add splitting for OOS samples

truff4ut · truff4ut · commit 32e5e5f77f92 · 2024-12-04T06:07:45.000+03:00
diff --git a/autointent/context/data_handler/_data_handler.py b/autointent/context/data_handler/_data_handler.py
@@ -50,40 +50,7 @@ def __init__(
 
         self.n_classes = self.dataset.n_classes
 
-        if Split.TEST not in self.dataset:
-            self.dataset[Split.TRAIN], self.dataset[Split.TEST] = split_dataset(
-                self.dataset,
-                split=Split.TRAIN,
-                test_size=0.2,
-                random_seed=random_seed,
-            )
-
-        self.dataset[f"{Split.TRAIN}_0"], self.dataset[f"{Split.TRAIN}_1"] = split_dataset(
-            self.dataset,
-            split=Split.TRAIN,
-            test_size=0.5,
-            random_seed=random_seed,
-        )
-        self.dataset.pop(Split.TRAIN)
-
-        for idx in range(2):
-            self.dataset[f"{Split.TRAIN}_{idx}"], self.dataset[f"{Split.VALIDATION}_{idx}"] = split_dataset(
-                self.dataset,
-                split=f"{Split.TRAIN}_{idx}",
-                test_size=0.2,
-                random_seed=random_seed,
-            )
-
-        for split in self.dataset:
-            if split == Split.OOS:
-                continue
-            n_classes_split = self.dataset.get_n_classes(split)
-            if n_classes_split != self.n_classes:
-                message = (
-                    f"Number of classes in split '{split}' doesn't match initial number of classes "
-                    f"({n_classes_split} != {self.n_classes})"
-                )
-                raise ValueError(message)
+        self._split(random_seed)
 
         self.regexp_patterns = [
             RegexPatterns(
@@ -162,14 +129,15 @@ def test_labels(self, idx: int | None = None) -> list[LabelType]:
         split = f"{Split.TEST}_{idx}" if idx is not None else Split.TEST
         return cast(list[LabelType], self.dataset[split][self.dataset.label_feature])
 
-    def oos_utterances(self) -> list[str]:
+    def oos_utterances(self, idx: int | None = None) -> list[str]:
         """
         Get the out-of-scope utterances.
 
         :return: List of out-of-scope utterances if available, otherwise an empty list.
         """
         if self.has_oos_samples():
-            return cast(list[str], self.dataset[Split.OOS][self.dataset.utterance_feature])
+            split = f"{Split.OOS}_{idx}" if idx is not None else Split.OOS
+            return cast(list[str], self.dataset[split][self.dataset.utterance_feature])
         return []
 
     def has_oos_samples(self) -> bool:
@@ -178,7 +146,7 @@ def has_oos_samples(self) -> bool:
 
         :return: True if there are out-of-scope samples.
         """
-        return Split.OOS in self.dataset
+        return any(split.startswith(Split.OOS) for split in self.dataset)
 
     def dump(self) -> dict[str, list[dict[str, Any]]]:
         """
@@ -187,3 +155,60 @@ def dump(self) -> dict[str, list[dict[str, Any]]]:
         :return: Dataset dump.
         """
         return self.dataset.dump()
+
+    def _split(self, random_seed: int) -> None:
+        if Split.TEST not in self.dataset:
+            self.dataset[Split.TRAIN], self.dataset[Split.TEST] = split_dataset(
+                self.dataset,
+                split=Split.TRAIN,
+                test_size=0.2,
+                random_seed=random_seed,
+            )
+
+        self.dataset[f"{Split.TRAIN}_0"], self.dataset[f"{Split.TRAIN}_1"] = split_dataset(
+            self.dataset,
+            split=Split.TRAIN,
+            test_size=0.5,
+            random_seed=random_seed,
+        )
+        self.dataset.pop(Split.TRAIN)
+
+        for idx in range(2):
+            self.dataset[f"{Split.TRAIN}_{idx}"], self.dataset[f"{Split.VALIDATION}_{idx}"] = split_dataset(
+                self.dataset,
+                split=f"{Split.TRAIN}_{idx}",
+                test_size=0.2,
+                random_seed=random_seed,
+            )
+
+        if self.has_oos_samples():
+            self.dataset[f"{Split.OOS}_0"], self.dataset[f"{Split.OOS}_1"] = (
+                self.dataset[Split.OOS]
+                .train_test_split(
+                    test_size=0.2,
+                    shuffle=True,
+                    seed=random_seed,
+                )
+                .values()
+            )
+            self.dataset[f"{Split.OOS}_1"], self.dataset[f"{Split.OOS}_2"] = (
+                self.dataset[f"{Split.OOS}_1"]
+                .train_test_split(
+                    test_size=0.5,
+                    shuffle=True,
+                    seed=random_seed,
+                )
+                .values()
+            )
+            self.dataset.pop(Split.OOS)
+
+        for split in self.dataset:
+            if split.startswith(Split.OOS):
+                continue
+            n_classes_split = self.dataset.get_n_classes(split)
+            if n_classes_split != self.n_classes:
+                message = (
+                    f"Number of classes in split '{split}' doesn't match initial number of classes "
+                    f"({n_classes_split} != {self.n_classes})"
+                )
+                raise ValueError(message)
diff --git a/autointent/context/optimization_info/_data_models.py b/autointent/context/optimization_info/_data_models.py
@@ -42,7 +42,10 @@ class ScorerArtifact(Artifact):
     train_scores: NDArray[np.float64] | None = Field(None, description="Scorer outputs for train utterances")
     validation_scores: NDArray[np.float64] | None = Field(None, description="Scorer outputs for validation utterances")
     test_scores: NDArray[np.float64] | None = Field(None, description="Scorer outputs for test utterances")
-    oos_scores: NDArray[np.float64] | None = Field(None, description="Scorer outputs for out-of-scope utterances")
+    oos_scores: dict[str, NDArray[np.float64]] | None = Field(
+        None,
+        description="Scorer outputs for out-of-scope utterances",
+    )
 
 
 class PredictorArtifact(Artifact):
diff --git a/autointent/context/optimization_info/_optimization_info.py b/autointent/context/optimization_info/_optimization_info.py
@@ -5,7 +5,7 @@
 """
 
 from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, Literal
 
 import numpy as np
 from numpy.typing import NDArray
@@ -174,13 +174,15 @@ def get_best_test_scores(self) -> NDArray[np.float64] | None:
         best_scorer_artifact: ScorerArtifact = self._get_best_artifact(node_type=NodeType.scoring)  # type: ignore[assignment]
         return best_scorer_artifact.test_scores
 
-    def get_best_oos_scores(self) -> NDArray[np.float64] | None:
+    def get_best_oos_scores(self, split: Literal["train", "validation", "test"]) -> NDArray[np.float64] | None:
         """
         Retrieve the out-of-scope scores from the best scorer node.
 
         :return: Out-of-scope scores as a numpy array.
         """
         best_scorer_artifact: ScorerArtifact = self._get_best_artifact(node_type=NodeType.scoring)  # type: ignore[assignment]
+        if best_scorer_artifact.oos_scores is not None:
+            return best_scorer_artifact.oos_scores[split]
         return best_scorer_artifact.oos_scores
 
     def dump_evaluation_results(self) -> dict[str, dict[str, list[float]]]:
diff --git a/autointent/modules/_regexp.py b/autointent/modules/_regexp.py
@@ -130,8 +130,8 @@ def score(
         assets = {
             "test_matches": list(self.predict(context.data_handler.test_utterances())),
             "oos_matches": None
-            if context.data_handler.has_oos_samples()
-            else self.predict(context.data_handler.oos_utterances()),
+            if not context.data_handler.has_oos_samples()
+            else self.predict(context.data_handler.oos_utterances(2)),
         }
         if assets["test_matches"] is None:
             msg = "no matches found"
diff --git a/autointent/modules/prediction/_base.py b/autointent/modules/prediction/_base.py
@@ -82,15 +82,18 @@ def get_prediction_evaluation_data(
     elif split == "validation":
         labels = np.array(context.data_handler.validation_labels(1))
         scores = context.optimization_info.get_best_validation_scores()
-    else:
+    elif split == "test":
         labels = np.array(context.data_handler.test_labels())
         scores = context.optimization_info.get_best_test_scores()
+    else:
+        message = f"Invalid split '{split}' provided. Expected one of 'train', 'validation', or 'test'."
+        raise ValueError(message)
 
     if scores is None:
         message = f"No '{split}' scores found in the optimization info"
         raise ValueError(message)
 
-    oos_scores = context.optimization_info.get_best_oos_scores()
+    oos_scores = context.optimization_info.get_best_oos_scores(split)
     return_scores = scores
     if oos_scores is not None:
         oos_labels = (
diff --git a/autointent/modules/retrieval/_vectordb.py b/autointent/modules/retrieval/_vectordb.py
@@ -127,9 +127,12 @@ def score(
         if split == "validation":
             utterances = context.data_handler.validation_utterances(0)
             labels = context.data_handler.validation_labels(0)
-        else:
+        elif split == "test":
             utterances = context.data_handler.test_utterances()
             labels = context.data_handler.test_labels()
+        else:
+            message = f"Invalid split '{split}' provided. Expected one of 'validation', or 'test'."
+            raise ValueError(message)
         predictions, _, _ = self.vector_index.query(utterances, self.k)
         return metric_fn(labels, predictions)
 
diff --git a/autointent/modules/scoring/_base.py b/autointent/modules/scoring/_base.py
@@ -7,6 +7,7 @@
 import numpy.typing as npt
 
 from autointent import Context
+from autointent.context.data_handler import Split
 from autointent.context.optimization_info import ScorerArtifact
 from autointent.metrics import ScoringMetricFn
 from autointent.modules import Module
@@ -36,15 +37,22 @@ def score(
         if split == "validation":
             utterances = context.data_handler.validation_utterances(0)
             labels = context.data_handler.validation_labels(0)
-        else:
+        elif split == "test":
             utterances = context.data_handler.test_utterances()
             labels = context.data_handler.test_labels()
+        else:
+            message = f"Invalid split '{split}' provided. Expected one of 'validation', or 'test'."
+            raise ValueError(message)
 
         scores = self.predict(utterances)
 
         self._oos_scores = None
         if context.data_handler.has_oos_samples():
-            self._oos_scores = self.predict(context.data_handler.oos_utterances())
+            self._oos_scores = {
+                Split.TRAIN: self.predict(context.data_handler.oos_utterances(0)),
+                Split.VALIDATION: self.predict(context.data_handler.oos_utterances(1)),
+                Split.TEST: self.predict(context.data_handler.oos_utterances(2)),
+            }
 
         self._train_scores = self.predict(context.data_handler.train_utterances(1))
         self._validation_scores = self.predict(context.data_handler.validation_utterances(1))
diff --git a/tests/assets/data/clinc_subset.json b/tests/assets/data/clinc_subset.json
@@ -145,6 +145,15 @@
         },
         {
             "utterance": "what size wipers does this car take"
+        },
+        {
+            "utterance": "where is the dipstick"
+        },
+        {
+            "utterance": "how much is 1 share of aapl"
+        },
+        {
+            "utterance": "how is glue made"
         }
     ]
 }
diff --git a/tests/modules/prediction/conftest.py b/tests/modules/prediction/conftest.py
@@ -20,8 +20,8 @@ def multiclass_fit_data(dataset):
     scorer = KNNScorer(**knn_params)
 
     scorer.fit(data_handler.train_utterances(1), data_handler.train_labels(1))
-    scores = scorer.predict(data_handler.validation_utterances(1) + data_handler.oos_utterances())
-    labels = data_handler.validation_labels(1) + [-1] * len(data_handler.oos_utterances())
+    scores = scorer.predict(data_handler.validation_utterances(1) + data_handler.oos_utterances(1))
+    labels = data_handler.validation_labels(1) + [-1] * len(data_handler.oos_utterances(1))
     return scores, labels
 
 
@@ -40,6 +40,6 @@ def multilabel_fit_data(dataset):
     scorer = KNNScorer(**knn_params)
 
     scorer.fit(data_handler.train_utterances(1), data_handler.train_labels(1))
-    scores = scorer.predict(data_handler.validation_utterances(1) + data_handler.oos_utterances())
-    labels = data_handler.validation_labels(1) + [[0] * data_handler.n_classes] * len(data_handler.oos_utterances())
+    scores = scorer.predict(data_handler.validation_utterances(1) + data_handler.oos_utterances(1))
+    labels = data_handler.validation_labels(1) + [[0] * data_handler.n_classes] * len(data_handler.oos_utterances(1))
     return scores, labels
diff --git a/tests/modules/prediction/test_tunable.py b/tests/modules/prediction/test_tunable.py
@@ -21,7 +21,7 @@ def test_multilabel(multilabel_fit_data):
     predictor.fit(*multilabel_fit_data)
     scores = np.array([[0.2, 0.9, 0], [0.8, 0, 0.6], [0, 0.4, 0.7]])
     predictions = predictor.predict(scores)
-    desired = np.array([[0, 1, 0], [1, 0, 1], [0, 0, 1]])
+    desired = np.array([[0, 1, 0], [0, 0, 1], [0, 0, 1]])
 
     np.testing.assert_array_equal(predictions, desired)
 

Original file line number	Diff line number	Diff line change
`@@ -145,6 +145,15 @@`
`145`	`145`	`},`
`146`	`146`	`{`
`147`	`147`	`"utterance": "what size wipers does this car take"`
	`148`	`+ },`
	`149`	`+ {`
	`150`	`+ "utterance": "where is the dipstick"`
	`151`	`+ },`
	`152`	`+ {`
	`153`	`+ "utterance": "how much is 1 share of aapl"`
	`154`	`+ },`
	`155`	`+ {`
	`156`	`+ "utterance": "how is glue made"`
`148`	`157`	`}`
`149`	`158`	`]`
`150`	`159`	`}`