try to fix zero shot scorers

voorhs · voorhs · commit 9d4e2dab230a · 2025-07-31T00:51:51.000+03:00
diff --git a/autointent/modules/scoring/_description/base.py b/autointent/modules/scoring/_description/base.py
@@ -22,13 +22,15 @@ class BaseDescriptionScorer(BaseScorer, ABC):
 
     Args:
         temperature: Temperature parameter for scaling logits, defaults to 1.0
+        multilabe: Flag indicating classification task type
     """
 
     supports_multiclass = True
     supports_multilabel = True
 
-    def __init__(self, temperature: PositiveFloat = 1.0) -> None:
+    def __init__(self, temperature: PositiveFloat = 1.0, multilabel: bool = False) -> None:
         self.temperature = temperature
+        self._multilabel = multilabel
         self._validate_temperature()
 
     def _validate_temperature(self) -> None:
@@ -82,16 +84,14 @@ def fit(
         Raises:
             ValueError: If descriptions contain None values
         """
-        self._validate_task(labels)
         self._validate_descriptions(descriptions)
-        self._fit_implementation(utterances, descriptions)
+        self._fit_implementation(descriptions)
 
     @abstractmethod
-    def _fit_implementation(self, utterances: list[str], descriptions: list[str]) -> None:
+    def _fit_implementation(self, descriptions: list[str]) -> None:
         """Implementation-specific fitting logic.
 
         Args:
-            utterances: List of utterances to process
             descriptions: List of intent descriptions
         """
 
diff --git a/autointent/modules/scoring/_description/bi_encoder.py b/autointent/modules/scoring/_description/bi_encoder.py
@@ -26,6 +26,7 @@ class BiEncoderDescriptionScorer(BaseDescriptionScorer):
     Args:
         embedder_config: Configuration for the embedder model (HuggingFace model name or config)
         temperature: Temperature parameter for scaling logits before softmax/sigmoid (default: 1.0)
+        multilabel: Flag indicating classification task type
 
     Example:
     --------
@@ -60,8 +61,9 @@ def __init__(
         self,
         embedder_config: EmbedderConfig | str | dict[str, Any] | None = None,
         temperature: PositiveFloat = 1.0,
+        multilabel: bool = False,
     ) -> None:
-        super().__init__(temperature)
+        super().__init__(temperature=temperature, multilabel=multilabel)
         self.embedder_config = EmbedderConfig.from_search_config(embedder_config)
         self._embedder: Embedder | None = None
         self._description_vectors: NDArray[Any] | None = None
@@ -86,16 +88,13 @@ def from_context(
         if embedder_config is None:
             embedder_config = context.resolve_embedder()
 
-        return cls(
-            temperature=temperature,
-            embedder_config=embedder_config,
-        )
+        return cls(temperature=temperature, embedder_config=embedder_config, multilabel=context.is_multilabel())
 
     def get_implicit_initialization_params(self) -> dict[str, Any]:
         """Get implicit initialization parameters for this scorer."""
         return {"embedder_config": self.embedder_config.model_dump()}
 
-    def _fit_implementation(self, utterances: list[str], descriptions: list[str]) -> None:
+    def _fit_implementation(self, descriptions: list[str]) -> None:
         """Fit the bi-encoder by embedding descriptions.
 
         Args:
diff --git a/autointent/modules/scoring/_description/cross_encoder.py b/autointent/modules/scoring/_description/cross_encoder.py
@@ -28,6 +28,7 @@ class CrossEncoderDescriptionScorer(BaseDescriptionScorer):
     Args:
         cross_encoder_config: Configuration for the cross-encoder model (HuggingFace model name or config)
         temperature: Temperature parameter for scaling logits before softmax/sigmoid (default: 1.0)
+        multilabel: Flag indicating classification task type
 
     Example:
     --------
@@ -48,8 +49,8 @@ class CrossEncoderDescriptionScorer(BaseDescriptionScorer):
             "User asks about weather conditions or forecasts"
         ]
 
-         # Fit using descriptions only (zero-shot approach)
-         scorer.fit([], [], descriptions)
+        # Fit using descriptions only (zero-shot approach)
+        scorer.fit([], [], descriptions)
 
         # Make predictions on new utterances
         test_utterances = ["Reserve a hotel room", "Delete my booking"]
@@ -62,8 +63,9 @@ def __init__(
         self,
         cross_encoder_config: CrossEncoderConfig | str | dict[str, Any] | None = None,
         temperature: PositiveFloat = 1.0,
+        multilabel: bool = False,
     ) -> None:
-        super().__init__(temperature)
+        super().__init__(temperature=temperature, multilabel=multilabel)
         self.cross_encoder_config = CrossEncoderConfig.from_search_config(cross_encoder_config)
         self._cross_encoder: Ranker | None = None
         self._description_texts: list[str] | None = None
@@ -89,15 +91,14 @@ def from_context(
             cross_encoder_config = context.resolve_ranker()
 
         return cls(
-            temperature=temperature,
-            cross_encoder_config=cross_encoder_config,
+            temperature=temperature, cross_encoder_config=cross_encoder_config, multilabel=context.is_multilabel()
         )
 
     def get_implicit_initialization_params(self) -> dict[str, Any]:
         """Get implicit initialization parameters for this scorer."""
         return {"cross_encoder_config": self.cross_encoder_config.model_dump()}
 
-    def _fit_implementation(self, utterances: list[str], descriptions: list[str]) -> None:
+    def _fit_implementation(self, descriptions: list[str]) -> None:
         """Fit the cross-encoder by storing descriptions.
 
         Args:
diff --git a/autointent/modules/scoring/_description/llm_encoder.py b/autointent/modules/scoring/_description/llm_encoder.py
@@ -62,6 +62,7 @@ class LLMDescriptionScorer(BaseDescriptionScorer):
         max_concurrent: Maximum number of concurrent async calls to LLM (default: 15)
         max_per_second: Maximum number of API calls per second for rate limiting (default: 10)
         max_retries: Maximum number of retry attempts for failed API calls (default: 3)
+        multilabel: Flag indicating classification task type
 
     Example:
     --------
@@ -84,8 +85,8 @@ class LLMDescriptionScorer(BaseDescriptionScorer):
             "User asks about weather conditions or forecasts"
         ]
 
-         # Fit using descriptions only (zero-shot approach)
-         scorer.fit([], [], descriptions)
+        # Fit using descriptions only (zero-shot approach)
+        scorer.fit([], [], descriptions)
 
         # Make predictions on new utterances
         test_utterances = ["Reserve a hotel room", "Delete my booking"]
@@ -101,8 +102,9 @@ def __init__(
         max_concurrent: PositiveInt | None = 15,
         max_per_second: PositiveInt = 10,
         max_retries: PositiveInt = 3,
+        multilabel: bool = False,
     ) -> None:
-        super().__init__(temperature=temperature)
+        super().__init__(temperature=temperature, multilabel=multilabel)
 
         self.generator_config = generator_config or {}
         self.max_concurrent = max_concurrent
@@ -125,12 +127,13 @@ def from_context(
             max_concurrent=max_concurrent,
             max_per_second=max_per_second,
             max_retries=max_retries,
+            multilabel=context.is_multilabel(),
         )
 
     def get_implicit_initialization_params(self) -> dict[str, Any]:
         return {}
 
-    def _fit_implementation(self, utterances: list[str], descriptions: list[str]) -> None:
+    def _fit_implementation(self, descriptions: list[str]) -> None:
         """Fit the LLM scorer by initializing the generator and storing descriptions.
 
         Args: