Merge pull request #169 from datarian/fix-binary-encoder-for-columntransformer

janmotl · web-flow · commit 325a5706683c · 2019-03-22T17:38:31.000+01:00
Fix binary encoder for columntransformer
diff --git a/.travis.yml b/.travis.yml
@@ -16,7 +16,7 @@ env:
     # The versions should match the minimal requirements in requirements.txt and setup.py
     - DISTRIB="conda" PYTHON_VERSION="2.7" CYTHON_VERSION="0.21"
       NUMPY_VERSION="1.11.1" PANDAS_VERSION="0.21.1" PATSY_VERSION="0.4.1"
-      SCIKIT_VERSION="0.17.1" SCIPY_VERSION="0.17.0" STATSMODELS_VERSION="0.6.1"
+      SCIKIT_VERSION="0.20.2" SCIPY_VERSION="0.17.0" STATSMODELS_VERSION="0.6.1"
     - DISTRIB="conda" PYTHON_VERSION="3.5" COVERAGE="true" CYTHON_VERSION="0.23.4"
       NUMPY_VERSION="1.11.1" PANDAS_VERSION="0.21.1" PATSY_VERSION="0.4.1"
       SCIKIT_VERSION="0.17.1" SCIPY_VERSION="0.17.0" STATSMODELS_VERSION="0.6.1"
diff --git a/category_encoders/binary.py b/category_encoders/binary.py
@@ -71,9 +71,16 @@ class BinaryEncoder(BaseEstimator, TransformerMixin):
 
     def __init__(self, verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True,
                  handle_unknown='value', handle_missing='value'):
-        self.base_n_encoder = ce.BaseNEncoder(base=2, verbose=verbose, cols=cols, mapping=mapping,
-                                              drop_invariant=drop_invariant, return_df=return_df,
-                                              handle_unknown=handle_unknown, handle_missing=handle_missing)
+        self.verbose = verbose
+        self.cols = cols
+        self.mapping = mapping
+        self.drop_invariant = drop_invariant
+        self.return_df = return_df
+        self.handle_unknown = handle_unknown
+        self.handle_missing = handle_missing
+        self.base_n_encoder = ce.BaseNEncoder(base=2, verbose=self.verbose, cols=self.cols, mapping=self.mapping,
+                                              drop_invariant=self.drop_invariant, return_df=self.return_df,
+                                              handle_unknown=self.handle_unknown, handle_missing=self.handle_missing)
 
     def fit(self, X, y=None, **kwargs):
         """Fit encoder according to X and y.
diff --git a/category_encoders/tests/test_encoders.py b/category_encoders/tests/test_encoders.py
@@ -8,6 +8,7 @@
 import sklearn
 import category_encoders.tests.helpers as th
 from sklearn.utils.estimator_checks import check_transformer_general, check_transformers_unfitted
+from sklearn.compose import ColumnTransformer
 from unittest2 import TestSuite, TextTestRunner, TestCase  # or `from unittest import ...` if on Python 3.4+
 
 import category_encoders as encoders
@@ -419,3 +420,23 @@ def test_truncated_index(self):
                 enc2 = getattr(encoders, encoder_name)()
                 result2 = enc2.fit_transform(data2.x, data2.y)
                 self.assertTrue((result.values == result2.values).all())
+
+    def test_column_transformer(self):
+        # see issue #169
+            for encoder_name in (set(encoders.__all__) - {'HashingEncoder'}): # HashingEncoder does not accept handle_missing parameter
+                with self.subTest(encoder_name=encoder_name):
+
+                    # we can only test one data type at once. Here, we test string columns.
+                    tested_columns = ['unique_str', 'invariant', 'underscore', 'none', 'extra']
+
+                    # ColumnTransformer instantiates the encoder twice -> we have to make sure the encoder settings are correctly passed
+                    ct = ColumnTransformer([
+                        ("dummy_encoder_name", getattr(encoders, encoder_name)(handle_missing="return_nan"), tested_columns)
+                    ])
+                    obtained = ct.fit_transform(X, y)
+
+                    # the old-school approach
+                    enc = getattr(encoders, encoder_name)(handle_missing="return_nan", return_df=False)
+                    expected = enc.fit_transform(X[tested_columns], y)
+
+                    np.testing.assert_array_equal(obtained, expected)
diff --git a/requirements.txt b/requirements.txt
@@ -1,5 +1,5 @@
 numpy>=1.11.1
-scikit-learn>=0.17.1
+scikit-learn>=0.20.2
 scipy>=0.17.0
 statsmodels>=0.6.1
 pandas>=0.21.1
diff --git a/setup.py b/setup.py
@@ -30,7 +30,7 @@
     author='Will McGinnis',
     install_requires=[
       'numpy>=1.11.1',
-      'scikit-learn>=0.17.1',
+      'scikit-learn>=0.20.2',
       'scipy>=0.17.0',
       'statsmodels>=0.6.1',
       'pandas>=0.21.1',