#104 - added on_transformed support to BaseCommittee

Boyan Hristov · Boyan Hristov · commit 1ad79fecb074 · 2020-09-25T11:24:11.000+02:00
diff --git a/modAL/models/base.py b/modAL/models/base.py
@@ -16,7 +16,7 @@
 
 import scipy.sparse as sp
 
-from modAL.utils.data import data_vstack, modALinput, retrieve_rows
+from modAL.utils.data import data_vstack, data_hstack, modALinput, retrieve_rows
 
 if sys.version_info >= (3, 4):
     ABC = abc.ABC
@@ -143,13 +143,7 @@ def transform_without_estimating(self, X: modALinput) -> Union[np.ndarray, sp.cs
 
         ################################
         # concatenate all transformations and return
-        # TODO: maybe use a newly implemented data_hstack() instead
-
-        # use sparse representation if any of the pipelines do
-        if any([isinstance(Xti, sp.csr_matrix) for Xti in Xt]):
-            return sp.hstack([sp.csc_matrix(Xti) for Xti in Xt])
-
-        return np.hstack(Xt)
+        return data_hstack(Xt)
 
     def _fit_to_known(self, bootstrap: bool = False, **fit_kwargs) -> 'BaseLearner':
         """
@@ -297,12 +291,15 @@ class BaseCommittee(ABC, BaseEstimator):
     Args:
         learner_list: List of ActiveLearner objects to form committee.
         query_strategy: Function to query labels.
+        on_transformed: Whether to transform samples with the pipeline defined by each learner's estimator
+            when applying the query strategy.
     """
-    def __init__(self, learner_list: List[BaseLearner], query_strategy: Callable) -> None:
+    def __init__(self, learner_list: List[BaseLearner], query_strategy: Callable, on_transformed: bool = False) -> None:
         assert type(learner_list) == list, 'learners must be supplied in a list'
 
         self.learner_list = learner_list
         self.query_strategy = query_strategy
+        self.on_transformed = on_transformed
 
     def __iter__(self) -> Iterator[BaseLearner]:
         for learner in self.learner_list:
@@ -369,6 +366,17 @@ def fit(self, X: modALinput, y: modALinput, **fit_kwargs) -> 'BaseCommittee':
 
         return self
 
+    def transform_without_estimating(self, X: modALinput) -> Union[np.ndarray, sp.csr_matrix]:
+        """
+        Transforms the data as supplied to each learner's estimator and concatenates transformations.
+        Args:
+            X: dataset to be transformed
+
+        Returns:
+            Transformed data set
+        """
+        return data_hstack([learner.transform_without_estimating(X) for learner in self.learner_list])
+
     def query(self, X_pool, *query_args, **query_kwargs) -> Union[Tuple, modALinput]:
         """
         Finds the n_instances most informative point in the data provided by calling the query_strategy function.
diff --git a/modAL/utils/data.py b/modAL/utils/data.py
@@ -1,4 +1,4 @@
-from typing import Union, Container, List
+from typing import Union, List, Sequence
 from itertools import chain
 
 import numpy as np
@@ -9,9 +9,9 @@
 modALinput = Union[list, np.ndarray, sp.csr_matrix, pd.DataFrame]
 
 
-def data_vstack(blocks: Container) -> modALinput:
+def data_vstack(blocks: Sequence[modALinput]) -> modALinput:
     """
-    Stack vertically both sparse and dense arrays.
+    Stack vertically sparse/dense arrays and pandas data frames.
 
     Args:
         blocks: Sequence of modALinput objects.
@@ -34,6 +34,26 @@ def data_vstack(blocks: Container) -> modALinput:
             raise TypeError('%s datatype is not supported' % type(blocks[0]))
 
 
+def data_hstack(blocks: Sequence[modALinput]) -> modALinput:
+    """
+    Stack horizontally both sparse and dense arrays
+
+    Args:
+        blocks: Sequence of modALinput objects.
+
+    Returns:
+        New sequence of horizontally stacked elements.
+    """
+    # use sparse representation if any of the blocks do
+    if any([sp.issparse(b) for b in blocks]):
+        return sp.hstack(blocks)
+
+    try:
+        return np.hstack(blocks)
+    except:
+        raise TypeError('%s datatype is not supported' % type(blocks[0]))
+
+
 def retrieve_rows(X: modALinput,
                   I: Union[int, List[int], np.ndarray]) -> Union[sp.csc_matrix, np.ndarray, pd.DataFrame]:
     """