update tests

voorhs · voorhs · commit 18d035d88f41 · 2025-11-19T16:37:48.000+03:00
diff --git a/tests/context/test_vector_index.py b/tests/context/test_vector_index.py
@@ -5,8 +5,9 @@
 import pytest
 
 from autointent import VectorIndex
-from autointent.configs import EmbedderConfig, FaissConfig, OpenSearchConfig, get_default_embedder_config
+from autointent.configs import EmbedderConfig, FaissConfig, OpenSearchConfig
 from autointent.custom_types import Document
+from tests.conftest import get_test_embedder_config
 
 # Check if opensearch-py is available
 opensearch_available = True
@@ -56,7 +57,7 @@ class TestVectorIndex:
     @pytest.fixture
     def embedder_config(self) -> EmbedderConfig:
         """Create a lightweight embedder config for testing."""
-        return get_default_embedder_config(model_name="sentence-transformers/all-MiniLM-L6-v2")
+        return get_test_embedder_config()
 
     @pytest.fixture
     def vector_index(self, embedder_config: EmbedderConfig, vector_config) -> VectorIndex:
@@ -242,16 +243,13 @@ def test_load_with_embedder_override(
             vector_index.dump(dump_path)
 
             # Create override config
-            override_config = get_default_embedder_config(model_name="sentence-transformers/all-MiniLM-L6-v2")
-            override_config.device = "cpu"
-            override_config.batch_size = 1
+            override_config = get_test_embedder_config()
 
             # Load with override
             loaded_index = VectorIndex.load(dump_path, embedder_override_config=override_config)
 
-            # Check that override was applied
-            assert loaded_index.embedder.config.device == "cpu"
-            assert loaded_index.embedder.config.batch_size == 1
+            # Check that loaded index works with overridden config
+            assert loaded_index.embedder.config.n_features == 512
 
     def test_error_handling_mismatched_lengths(self, vector_index: VectorIndex):
         """Test error handling when texts and labels have different lengths."""
@@ -287,7 +285,7 @@ def test_abstract_config_raises_error(self):
         """Test that using abstract VectorIndexConfig raises an error."""
         from autointent.configs import VectorIndexConfig
 
-        embedder_config = get_default_embedder_config(model_name="sentence-transformers/all-MiniLM-L6-v2")
+        embedder_config = get_test_embedder_config()
 
         vector_index = VectorIndex(embedder_config=embedder_config, config=VectorIndexConfig())
         with pytest.raises(TypeError, match="Passed abstract vector index config"):
diff --git a/tests/embedder/conftest.py b/tests/embedder/conftest.py
@@ -3,7 +3,11 @@
 
 import pytest
 
-from autointent.configs import OpenaiEmbeddingConfig, SentenceTransformerEmbeddingConfig
+from autointent.configs import (
+    HashingVectorizerEmbeddingConfig,
+    OpenaiEmbeddingConfig,
+    SentenceTransformerEmbeddingConfig,
+)
 
 # Check if OpenAI API key is available for testing
 openai_available = os.getenv("OPENAI_API_KEY") is not None
@@ -18,6 +22,13 @@ def on_windows() -> bool:
 
 # Backend configurations for parametrization
 backend_configs = [
+    pytest.param(
+        HashingVectorizerEmbeddingConfig(
+            n_features=512,
+            use_cache=False,
+        ),
+        id="hashing_vectorizer",
+    ),
     pytest.param(
         SentenceTransformerEmbeddingConfig(
             model_name="sergeyzh/rubert-tiny-turbo",
diff --git a/tests/modules/embedding/test_logreg.py b/tests/modules/embedding/test_logreg.py
@@ -1,17 +1,17 @@
 import numpy as np
 
 from autointent.modules.embedding import LogregAimedEmbedding
-from tests.conftest import setup_environment
+from tests.conftest import get_test_embedder_config, setup_environment
 
 
 def test_get_assets_returns_correct_artifact_for_logreg():
-    module = LogregAimedEmbedding(embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = LogregAimedEmbedding(embedder_config=get_test_embedder_config())
     artifact = module.get_assets()
-    assert artifact.config.model_name == "sergeyzh/rubert-tiny-turbo"
+    assert artifact.config.n_features == 512
 
 
 def test_fit_trains_model():
-    module = LogregAimedEmbedding(embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = LogregAimedEmbedding(embedder_config=get_test_embedder_config())
 
     utterances = ["hello", "goodbye", "hi", "bye", "bye", "hello", "welcome", "hi123", "hiii", "bye-bye", "bye!"]
     labels = [0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1]
@@ -23,7 +23,7 @@ def test_fit_trains_model():
 
 
 def test_predict_evaluates_model():
-    module = LogregAimedEmbedding(embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = LogregAimedEmbedding(embedder_config=get_test_embedder_config())
 
     utterances = ["hello", "goodbye", "hi", "bye", "bye", "hello", "welcome", "hi123", "hiii", "bye-bye", "bye!"]
     labels = [0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1]
@@ -37,7 +37,7 @@ def test_predict_evaluates_model():
 
 
 def test_dump_load():
-    module = LogregAimedEmbedding(embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = LogregAimedEmbedding(embedder_config=get_test_embedder_config())
     utterances = ["hello", "goodbye", "hi", "bye", "bye", "hello", "welcome", "hi123", "hiii", "bye-bye", "bye!"]
     labels = [0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1]
     module.fit(utterances, labels)
diff --git a/tests/modules/embedding/test_retrieval.py b/tests/modules/embedding/test_retrieval.py
@@ -1,16 +1,17 @@
 from pathlib import Path
 
 from autointent.modules.embedding import RetrievalAimedEmbedding
+from tests.conftest import get_test_embedder_config
 
 
 def test_get_assets_returns_correct_artifact():
-    module = RetrievalAimedEmbedding(k=5, embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = RetrievalAimedEmbedding(k=5, embedder_config=get_test_embedder_config())
     artifact = module.get_assets()
-    assert artifact.config.model_name == "sergeyzh/rubert-tiny-turbo"
+    assert artifact.config.n_features == 512
 
 
 def test_dump_and_load_preserves_model_state(tmp_path: Path):
-    module = RetrievalAimedEmbedding(k=5, embedder_config="sergeyzh/rubert-tiny-turbo")
+    module = RetrievalAimedEmbedding(k=5, embedder_config=get_test_embedder_config())
 
     utterances = ["hello", "goodbye", "hi", "bye", "bye", "hello", "welcome", "hi123", "hiii", "bye-bye", "bye!"]
     labels = [0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1]
diff --git a/tests/modules/scoring/test_catboost.py b/tests/modules/scoring/test_catboost.py
@@ -7,6 +7,7 @@
 
 from autointent.context.data_handler import DataHandler
 from autointent.modules import CatBoostScorer
+from tests.conftest import get_test_embedder_config
 
 pytest.importorskip("catboost")
 
@@ -55,7 +56,7 @@ def test_catboost_prediction_multilabel(dataset):
     data_handler = DataHandler(dataset.to_multilabel())
 
     scorer = CatBoostScorer(
-        embedder_config="prajjwal1/bert-tiny",
+        embedder_config=get_test_embedder_config(),
         iterations=50,
         learning_rate=0.05,
         depth=6,
@@ -99,7 +100,7 @@ def test_catboost_features_types(dataset, features_type, use_embedding_features)
     data_handler = DataHandler(dataset)
 
     scorer = CatBoostScorer(
-        embedder_config="prajjwal1/bert-tiny",
+        embedder_config=get_test_embedder_config(),
         iterations=50,
         learning_rate=0.05,
         depth=6,
diff --git a/tests/modules/scoring/test_gcn_scorer.py b/tests/modules/scoring/test_gcn_scorer.py
@@ -4,6 +4,7 @@
 
 from autointent import Dataset
 from autointent.modules.scoring import GCNScorer
+from tests.conftest import get_test_embedder_config
 
 
 @pytest.fixture
@@ -44,7 +45,7 @@ def multiclass_dataset():
 
 def test_gcn_scorer_multilabel(multilabel_dataset):
     torch.manual_seed(42)
-    scorer = GCNScorer(embedder_config="prajjwal1/bert-tiny", num_train_epochs=1, batch_size=2, seed=42)
+    scorer = GCNScorer(embedder_config=get_test_embedder_config(), num_train_epochs=1, batch_size=2, seed=42)
     train_utterances = multilabel_dataset["train"]["utterance"]
     train_labels = multilabel_dataset["train"]["label"]
     descriptions = [intent.name for intent in multilabel_dataset.intents]
@@ -59,7 +60,7 @@ def test_gcn_scorer_multilabel(multilabel_dataset):
 
 def test_gcn_scorer_multiclass(multiclass_dataset):
     torch.manual_seed(42)
-    scorer = GCNScorer(embedder_config="prajjwal1/bert-tiny", num_train_epochs=1, batch_size=2, seed=42)
+    scorer = GCNScorer(embedder_config=get_test_embedder_config(), num_train_epochs=1, batch_size=2, seed=42)
     train_utterances = multiclass_dataset["train"]["utterance"]
     train_labels = multiclass_dataset["train"]["label"]
     descriptions = [intent.name for intent in multiclass_dataset.intents]
@@ -75,7 +76,7 @@ def test_gcn_scorer_multiclass(multiclass_dataset):
 
 def test_gcn_scorer_dump_load(tmp_path, multilabel_dataset):
     torch.manual_seed(42)
-    scorer = GCNScorer(embedder_config="prajjwal1/bert-tiny", num_train_epochs=1, batch_size=2, seed=42)
+    scorer = GCNScorer(embedder_config=get_test_embedder_config(), num_train_epochs=1, batch_size=2, seed=42)
     train_utterances = multilabel_dataset["train"]["utterance"]
     train_labels = multilabel_dataset["train"]["label"]
     descriptions = [intent.name for intent in multilabel_dataset.intents]
diff --git a/tests/modules/scoring/test_knn.py b/tests/modules/scoring/test_knn.py
@@ -4,12 +4,13 @@
 
 from autointent.context.data_handler import DataHandler
 from autointent.modules import KNNScorer
+from tests.conftest import get_test_embedder_config
 
 
 def test_base_knn(dataset):
     data_handler = DataHandler(dataset)
 
-    scorer = KNNScorer(k=3, weights="distance", embedder_config="sergeyzh/rubert-tiny-turbo")
+    scorer = KNNScorer(k=3, weights="distance", embedder_config=get_test_embedder_config())
 
     test_data = [
         "why is there a hold on my american saving bank account",
diff --git a/tests/modules/scoring/test_linear.py b/tests/modules/scoring/test_linear.py
@@ -4,12 +4,13 @@
 
 from autointent.context.data_handler import DataHandler
 from autointent.modules import LinearScorer
+from tests.conftest import get_test_embedder_config
 
 
 def test_base_linear(dataset):
     data_handler = DataHandler(dataset)
 
-    scorer = LinearScorer(embedder_config="sergeyzh/rubert-tiny-turbo")
+    scorer = LinearScorer(embedder_config=get_test_embedder_config())
 
     scorer.fit(data_handler.train_utterances(0), data_handler.train_labels(0))
     test_data = [
diff --git a/tests/modules/scoring/test_mlknn.py b/tests/modules/scoring/test_mlknn.py
@@ -4,12 +4,13 @@
 
 from autointent.context.data_handler import DataHandler
 from autointent.modules.scoring import MLKnnScorer
+from tests.conftest import get_test_embedder_config
 
 
 def test_base_mlknn(dataset):
     data_handler = DataHandler(dataset.to_multilabel())
 
-    scorer = MLKnnScorer(embedder_config="sergeyzh/rubert-tiny-turbo", k=3)
+    scorer = MLKnnScorer(embedder_config=get_test_embedder_config(), k=3)
     scorer.fit(data_handler.train_utterances(0), data_handler.train_labels(0))
 
     test_data = [
diff --git a/tests/modules/scoring/test_sklearn.py b/tests/modules/scoring/test_sklearn.py
@@ -4,13 +4,14 @@
 
 from autointent.context.data_handler import DataHandler
 from autointent.modules import SklearnScorer
+from tests.conftest import get_test_embedder_config
 
 
 def test_base_sklearn(dataset):
     data_handler = DataHandler(dataset)
 
     scorer = SklearnScorer(
-        embedder_config="sergeyzh/rubert-tiny-turbo",
+        embedder_config=get_test_embedder_config(),
         clf_name="LogisticRegression",
         penalty="elasticnet",
         solver="saga",
diff --git a/tests/modules/test_dumper.py b/tests/modules/test_dumper.py
@@ -8,8 +8,9 @@
 
 from autointent import Embedder, Ranker, VectorIndex
 from autointent._dump_tools import Dumper
-from autointent.configs import CrossEncoderConfig, FaissConfig, TokenizerConfig, initialize_embedder_config
+from autointent.configs import CrossEncoderConfig, FaissConfig, TokenizerConfig
 from autointent.schemas import Tag, TagsList
+from tests.conftest import get_test_embedder_config
 
 
 class TestSimpleAttributes:
@@ -63,7 +64,7 @@ def check_attributes(self):
 class TestVectorIndex:
     def init_attributes(self):
         self.vector_index = VectorIndex(
-            embedder_config=initialize_embedder_config("bert-base-uncased"),
+            embedder_config=get_test_embedder_config(),
             config=FaissConfig(),
         )
         self.vector_index.add(texts=["hello", "world"], labels=[0, 1])
@@ -75,7 +76,7 @@ def check_attributes(self):
 class TestEmbedder:
     def init_attributes(self):
         self.embedder = Embedder(
-            embedder_config=initialize_embedder_config("bert-base-uncased"),
+            embedder_config=get_test_embedder_config(),
         )
         self._embedder_predictions = self.embedder.embed(["hello", "world"])
 
@@ -176,14 +177,7 @@ def _transformers_is_installed() -> bool:
             id="transformer",
         ),
         TestVectorIndex,
-        pytest.param(
-            TestEmbedder,
-            marks=pytest.mark.skipif(
-                not _st_is_installed(),
-                reason="need sentence-transformers dependency",
-            ),
-            id="embedder",
-        ),
+        TestEmbedder,
         TestSklearnEstimator,
         pytest.param(
             TestRanker,