Merge pull request #153 from scikit-learn-contrib/pull_149

dukebody · web-flow · commit 93e352ce599f · 2018-05-06T18:43:51.000+02:00
Output heterogeneous data types
diff --git a/README.rst b/README.rst
@@ -190,14 +190,14 @@ By default the output of the dataframe mapper is a numpy array. This is so becau
     ... ], df_out=True)
     >>> np.round(mapper_df.fit_transform(data.copy()), 2)
        pet_cat  pet_dog  pet_fish  children
-    0      1.0      0.0       0.0      0.21
-    1      0.0      1.0       0.0      1.88
-    2      0.0      1.0       0.0     -0.63
-    3      0.0      0.0       1.0     -0.63
-    4      1.0      0.0       0.0     -1.46
-    5      0.0      1.0       0.0     -0.63
-    6      1.0      0.0       0.0      1.04
-    7      0.0      0.0       1.0      0.21
+    0        1        0         0      0.21
+    1        0        1         0      1.88
+    2        0        1         0     -0.63
+    3        0        0         1     -0.63
+    4        1        0         0     -1.46
+    5        0        1         0     -0.63
+    6        1        0         0      1.04
+    7        0        0         1      0.21
 
 The names for the columns are the same ones present in the ``transformed_names_``
 attribute.
@@ -413,6 +413,7 @@ Development
 ******************
 * Add ``strategy`` and ``replacement`` parameters to ``CategoricalImputer`` to allow imputing
   with values other than the mode. (#144)
+* Preserve input data types when no transform is supplied (#138)
 
 
 1.6.0 (2017-10-28)
@@ -502,5 +503,6 @@ Other contributors:
 * Paul Butler (@paulgb)
 * Richard Miller (@rwjmiller)
 * Ritesh Agrawal (@ragrawal)
+* Timothy Sweetser (@hacktuarial)
 * Vitaley Zaretskey (@vzaretsk)
 * Zac Stewart (@zacstewart)
diff --git a/sklearn_pandas/dataframe_mapper.py b/sklearn_pandas/dataframe_mapper.py
@@ -260,6 +260,19 @@ def get_names(self, columns, transformer, x, alias=None):
         else:
             return [name]
 
+    def get_dtypes(self, extracted):
+        dtypes_features = [self.get_dtype(ex) for ex in extracted]
+        return [dtype for dtype_feature in dtypes_features
+                for dtype in dtype_feature]
+
+    def get_dtype(self, ex):
+        if isinstance(ex, np.ndarray) or sparse.issparse(ex):
+            return [ex.dtype] * ex.shape[1]
+        elif isinstance(ex, pd.DataFrame):
+            return list(ex.dtypes)
+        else:
+            raise TypeError(type(ex))
+
     def transform(self, X):
         """
         Transform the given data. Assumes that fit has already been called.
@@ -323,8 +336,15 @@ def transform(self, X):
             else:
                 index = None
 
-            return pd.DataFrame(stacked,
-                                columns=self.transformed_names_,
-                                index=index)
+            # output different data types, if appropriate
+            dtypes = self.get_dtypes(extracted)
+            df_out = pd.DataFrame(
+                stacked,
+                columns=self.transformed_names_,
+                index=index)
+            # preserve types
+            for col, dtype in zip(self.transformed_names_, dtypes):
+                df_out[col] = df_out[col].astype(dtype)
+            return df_out
         else:
             return stacked
diff --git a/tests/test_dataframe_mapper.py b/tests/test_dataframe_mapper.py
@@ -829,3 +829,20 @@ def test_direct_cross_validation(iris_dataframe):
     scores = sklearn_cv_score(pipeline, data, labels)
     assert scores.mean() > 0.96
     assert (scores.std() * 2) < 0.04
+
+
+def test_heterogeneous_output_types_input_df():
+    """
+    Modify feat2, but pass feat1 through unmodified.
+    This fails if input_df == False
+    """
+    df = pd.DataFrame({
+        'feat1': [1, 2, 3, 4, 5, 6],
+        'feat2': [1.0, 2.0, 3.0, 2.0, 3.0, 4.0]
+    })
+    M = DataFrameMapper([
+        (['feat2'], StandardScaler())
+        ], input_df=True, df_out=True, default=None)
+    dft = M.fit_transform(df)
+    assert dft['feat1'].dtype == np.dtype('int64')
+    assert dft['feat2'].dtype == np.dtype('float64')