Merge pull request #369 from PaulWestenthanner/refactor/contrast_coding

PaulWestenthanner · web-flow · commit 81bb01d99a44 · 2022-10-05T11:17:22.000+02:00
added base contrast encoder
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,3 +1,9 @@
+unreleased
+==========
+* Added base class for contrast coding schemes in order to make them more maintainable
+* Added hierarchical column feature in target encoder
+* Fixed maximum recursion depth bug in hashing encoder
+
 v2.5.0
 ======
 
diff --git a/category_encoders/backward_difference.py b/category_encoders/backward_difference.py
@@ -1,15 +1,14 @@
 """Backward difference contrast encoding"""
 
-import pandas as pd
-from patsy.contrasts import Diff
+from patsy.contrasts import Diff, ContrastMatrix
 import numpy as np
-from category_encoders.ordinal import OrdinalEncoder
-import category_encoders.utils as util
 
-__author__ = 'willmcginnis'
+from category_encoders.base_contrast_encoder import BaseContrastEncoder
 
+__author__ = 'paulwestenthanner'
 
-class BackwardDifferenceEncoder(util.BaseEncoder, util.UnsupervisedTransformerMixin):
+
+class BackwardDifferenceEncoder(BaseContrastEncoder):
     """Backward difference contrast coding for encoding categorical variables.
 
     Parameters
@@ -81,98 +80,7 @@ class BackwardDifferenceEncoder(util.BaseEncoder, util.UnsupervisedTransformerMi
     http://psych.colorado.edu/~carey/Courses/PSYC5741/handouts/Coding%20Categorical%20Variables%202006-03-03.pdf
 
     """
-    prefit_ordinal = True
-    encoding_relation = util.EncodingRelation.ONE_TO_N_UNIQUE
-
-    def __init__(self, verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True,
-                 handle_unknown='value', handle_missing='value'):
-        super().__init__(verbose=verbose, cols=cols, drop_invariant=drop_invariant, return_df=return_df,
-                         handle_unknown=handle_unknown, handle_missing=handle_missing)
-        self.mapping = mapping
-        self.ordinal_encoder = None
-
-    def _fit(self, X, y=None, **kwargs):
-        # train an ordinal pre-encoder
-        self.ordinal_encoder = OrdinalEncoder(
-            verbose=self.verbose,
-            cols=self.cols,
-            handle_unknown='value',
-            handle_missing='value'
-        )
-        self.ordinal_encoder = self.ordinal_encoder.fit(X)
-
-        ordinal_mapping = self.ordinal_encoder.category_mapping
-
-        mappings_out = []
-        for switch in ordinal_mapping:
-            values = switch.get('mapping')
-            col = switch.get('col')
-
-            column_mapping = self.fit_backward_difference_coding(col, values, self.handle_missing, self.handle_unknown)
-            mappings_out.append({'col': col, 'mapping': column_mapping, })
-
-        self.mapping = mappings_out
-
-    def _transform(self, X) -> pd.DataFrame:
-        X = self.ordinal_encoder.transform(X)
-        if self.handle_unknown == 'error':
-            if X[self.cols].isin([-1]).any().any():
-                raise ValueError('Columns to be encoded can not contain new values')
-
-        X = self.backward_difference_coding(X, mapping=self.mapping)
-        return X
-
-    @staticmethod
-    def fit_backward_difference_coding(col, values, handle_missing, handle_unknown):
-        if handle_missing == 'value':
-            values = values[values > 0]
-
-        values_to_encode = values.values
-
-        if len(values) < 2:
-            return pd.DataFrame(index=values_to_encode)
-
-        if handle_unknown == 'indicator':
-            values_to_encode = np.append(values_to_encode, -1)
-
-        backwards_difference_matrix = Diff().code_without_intercept(values_to_encode)
-        df = pd.DataFrame(data=backwards_difference_matrix.matrix, index=values_to_encode,
-                          columns=[f"{col}_{i}" for i in range(len(backwards_difference_matrix.column_suffixes))])
-
-        if handle_unknown == 'return_nan':
-            df.loc[-1] = np.nan
-        elif handle_unknown == 'value':
-            df.loc[-1] = np.zeros(len(values_to_encode) - 1)
-
-        if handle_missing == 'return_nan':
-            df.loc[values.loc[np.nan]] = np.nan
-        elif handle_missing == 'value':
-            df.loc[-2] = np.zeros(len(values_to_encode) - 1)
-
-        return df
-
-    @staticmethod
-    def backward_difference_coding(X_in, mapping):
-        """
-        """
-
-        X = X_in.copy(deep=True)
-
-        cols = X.columns.values.tolist()
-
-        X['intercept'] = pd.Series([1] * X.shape[0], index=X.index)
-
-        for switch in mapping:
-            col = switch.get('col')
-            mod = switch.get('mapping')
-
-            base_df = mod.reindex(X[col])
-            base_df.set_index(X.index, inplace=True)
-            X = pd.concat([base_df, X], axis=1)
-
-            old_column_index = cols.index(col)
-            cols[old_column_index: old_column_index + 1] = mod.columns
 
-        cols = ['intercept'] + cols
+    def get_contrast_matrix(self, values_to_encode: np.array) -> ContrastMatrix:
+        return Diff().code_without_intercept(values_to_encode)
 
-        return X.reindex(columns=cols)
diff --git a/category_encoders/base_contrast_encoder.py b/category_encoders/base_contrast_encoder.py
@@ -0,0 +1,142 @@
+"""Base encoder for various contrast coding schemes"""
+from abc import abstractmethod
+
+import pandas as pd
+from patsy.contrasts import ContrastMatrix
+import numpy as np
+from category_encoders.ordinal import OrdinalEncoder
+import category_encoders.utils as util
+
+__author__ = 'paulwestenthanner'
+
+
+class BaseContrastEncoder(util.BaseEncoder, util.UnsupervisedTransformerMixin):
+    """Base class for various contrast encoders
+
+    Parameters
+    ----------
+
+    verbose: int
+        integer indicating verbosity of the output. 0 for none.
+    cols: list
+        a list of columns to encode, if None, all string columns will be encoded.
+    drop_invariant: bool
+        boolean for whether or not to drop columns with 0 variance.
+    return_df: bool
+        boolean for whether to return a pandas DataFrame from transform (otherwise it will be a numpy array).
+    handle_unknown: str
+        options are 'error', 'return_nan', 'value', and 'indicator'. The default is 'value'. Warning: if indicator is used,
+        an extra column will be added in if the transform matrix has unknown categories.  This can cause
+        unexpected changes in dimension in some cases.
+    handle_missing: str
+        options are 'error', 'return_nan', 'value', and 'indicator'. The default is 'value'. Warning: if indicator is used,
+        an extra column will be added in if the transform matrix has nan values.  This can cause
+        unexpected changes in dimension in some cases.
+
+    References
+    ----------
+
+    .. [1] Contrast Coding Systems for Categorical Variables, from
+    https://stats.idre.ucla.edu/r/library/r-library-contrast-coding-systems-for-categorical-variables/
+
+    .. [2] Gregory Carey (2003). Coding Categorical Variables, from
+    http://psych.colorado.edu/~carey/Courses/PSYC5741/handouts/Coding%20Categorical%20Variables%202006-03-03.pdf
+
+    """
+    prefit_ordinal = True
+    encoding_relation = util.EncodingRelation.ONE_TO_N_UNIQUE
+
+    def __init__(self, verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True,
+                 handle_unknown='value', handle_missing='value'):
+        super().__init__(verbose=verbose, cols=cols, drop_invariant=drop_invariant, return_df=return_df,
+                         handle_unknown=handle_unknown, handle_missing=handle_missing)
+        self.mapping = mapping
+        self.ordinal_encoder = None
+
+    def _fit(self, X, y=None, **kwargs):
+        # train an ordinal pre-encoder
+        self.ordinal_encoder = OrdinalEncoder(
+            verbose=self.verbose,
+            cols=self.cols,
+            handle_unknown='value',
+            handle_missing='value'
+        )
+        self.ordinal_encoder = self.ordinal_encoder.fit(X)
+
+        ordinal_mapping = self.ordinal_encoder.category_mapping
+
+        mappings_out = []
+        for switch in ordinal_mapping:
+            values = switch.get('mapping')
+            col = switch.get('col')
+
+            column_mapping = self.fit_contrast_coding(col, values, self.handle_missing, self.handle_unknown)
+            mappings_out.append({'col': col, 'mapping': column_mapping, })
+
+        self.mapping = mappings_out
+
+    def _transform(self, X) -> pd.DataFrame:
+        X = self.ordinal_encoder.transform(X)
+        if self.handle_unknown == 'error':
+            if X[self.cols].isin([-1]).any().any():
+                raise ValueError('Columns to be encoded can not contain new values')
+
+        X = self.transform_contrast_coding(X, mapping=self.mapping)
+        return X
+
+    @abstractmethod
+    def get_contrast_matrix(self, values_to_encode: np.array) -> ContrastMatrix:
+        raise NotImplementedError
+
+    def fit_contrast_coding(self, col, values, handle_missing, handle_unknown):
+        if handle_missing == 'value':
+            values = values[values > 0]
+
+        values_to_encode = values.values
+
+        if len(values) < 2:
+            return pd.DataFrame(index=values_to_encode)
+
+        if handle_unknown == 'indicator':
+            values_to_encode = np.append(values_to_encode, -1)
+
+        contrast_matrix = self.get_contrast_matrix(values_to_encode)
+        df = pd.DataFrame(data=contrast_matrix.matrix, index=values_to_encode,
+                          columns=[f"{col}_{i}" for i in range(len(contrast_matrix.column_suffixes))])
+
+        if handle_unknown == 'return_nan':
+            df.loc[-1] = np.nan
+        elif handle_unknown == 'value':
+            df.loc[-1] = np.zeros(len(values_to_encode) - 1)
+
+        if handle_missing == 'return_nan':
+            df.loc[values.loc[np.nan]] = np.nan
+        elif handle_missing == 'value':
+            df.loc[-2] = np.zeros(len(values_to_encode) - 1)
+
+        return df
+
+    @staticmethod
+    def transform_contrast_coding(X, mapping):
+        cols = X.columns.values.tolist()
+
+        # See issue 370 if it is necessary to add an intercept or not.
+        X['intercept'] = pd.Series([1] * X.shape[0], index=X.index)
+
+        for switch in mapping:
+            col = switch.get('col')
+            mod = switch.get('mapping')
+
+            # reindex actually applies the mapping
+            base_df = mod.reindex(X[col])
+            base_df.set_index(X.index, inplace=True)
+            X = pd.concat([base_df, X], axis=1)
+
+            old_column_index = cols.index(col)
+            cols[old_column_index: old_column_index + 1] = mod.columns
+
+        # this could lead to problems if an intercept column is already present
+        # (e.g. if another column has been encoded with another contrast coding scheme)
+        cols = ['intercept'] + cols
+
+        return X.reindex(columns=cols)
diff --git a/category_encoders/helmert.py b/category_encoders/helmert.py
@@ -1,16 +1,15 @@
 """Helmert contrast coding"""
 
 
-import pandas as pd
+from patsy.contrasts import ContrastMatrix, Helmert
 import numpy as np
-from patsy.contrasts import Helmert
-from category_encoders.ordinal import OrdinalEncoder
-import category_encoders.utils as util
 
-__author__ = 'willmcginnis'
+from category_encoders.base_contrast_encoder import BaseContrastEncoder
 
+__author__ = 'paulwestenthanner'
 
-class HelmertEncoder(util.BaseEncoder, util.UnsupervisedTransformerMixin):
+
+class HelmertEncoder(BaseContrastEncoder):
     """Helmert contrast coding for encoding categorical features.
 
     Parameters
@@ -82,99 +81,5 @@ class HelmertEncoder(util.BaseEncoder, util.UnsupervisedTransformerMixin):
     http://psych.colorado.edu/~carey/Courses/PSYC5741/handouts/Coding%20Categorical%20Variables%202006-03-03.pdf
 
     """
-    prefit_ordinal = True
-    encoding_relation = util.EncodingRelation.ONE_TO_ONE
-
-    def __init__(self, verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True,
-                 handle_unknown='value', handle_missing='value'):
-        super().__init__(verbose=verbose, cols=cols, drop_invariant=drop_invariant, return_df=return_df,
-                         handle_unknown=handle_unknown, handle_missing=handle_missing)
-        self.mapping = mapping
-        self.ordinal_encoder = None
-
-    def _fit(self, X, y=None, **kwargs):
-
-        self.ordinal_encoder = OrdinalEncoder(
-            verbose=self.verbose,
-            cols=self.cols,
-            handle_unknown='value',
-            handle_missing='value'
-        )
-        self.ordinal_encoder = self.ordinal_encoder.fit(X)
-
-        ordinal_mapping = self.ordinal_encoder.category_mapping
-
-        mappings_out = []
-        for switch in ordinal_mapping:
-            values = switch.get('mapping')
-            col = switch.get('col')
-
-            column_mapping = self.fit_helmert_coding(col, values, self.handle_missing, self.handle_unknown)
-            mappings_out.append({'col': col, 'mapping': column_mapping, })
-
-        self.mapping = mappings_out
-
-    def _transform(self, X):
-        X = self.ordinal_encoder.transform(X)
-
-        if self.handle_unknown == 'error':
-            if X[self.cols].isin([-1]).any().any():
-                raise ValueError('Columns to be encoded can not contain new values')
-
-        X = self.helmert_coding(X, mapping=self.mapping)
-        return X
-
-    @staticmethod
-    def fit_helmert_coding(col, values, handle_missing, handle_unknown):
-        if handle_missing == 'value':
-            values = values[values > 0]
-
-        values_to_encode = values.values
-
-        if len(values) < 2:
-            return pd.DataFrame(index=values_to_encode)
-
-        if handle_unknown == 'indicator':
-            values_to_encode = np.append(values_to_encode, -1)
-
-        helmert_contrast_matrix = Helmert().code_without_intercept(values_to_encode)
-        df = pd.DataFrame(data=helmert_contrast_matrix.matrix, index=values_to_encode,
-                          columns=[f"{col}_{i}" for i in range(len(helmert_contrast_matrix.column_suffixes))])
-
-        if handle_unknown == 'return_nan':
-            df.loc[-1] = np.nan
-        elif handle_unknown == 'value':
-            df.loc[-1] = np.zeros(len(values_to_encode) - 1)
-
-        if handle_missing == 'return_nan':
-            df.loc[values.loc[np.nan]] = np.nan
-        elif handle_missing == 'value':
-            df.loc[-2] = np.zeros(len(values_to_encode) - 1)
-
-        return df
-
-    @staticmethod
-    def helmert_coding(X_in, mapping):
-        """
-        """
-
-        X = X_in.copy(deep=True)
-
-        cols = X.columns.values.tolist()
-
-        X['intercept'] = pd.Series([1] * X.shape[0], index=X.index)
-
-        for switch in mapping:
-            col = switch.get('col')
-            mod = switch.get('mapping')
-
-            base_df = mod.reindex(X[col])
-            base_df.set_index(X.index, inplace=True)
-            X = pd.concat([base_df, X], axis=1)
-
-            old_column_index = cols.index(col)
-            cols[old_column_index: old_column_index + 1] = mod.columns
-
-        cols = ['intercept'] + cols
-
-        return X.reindex(columns=cols)
+    def get_contrast_matrix(self, values_to_encode: np.array) -> ContrastMatrix:
+        return Helmert().code_without_intercept(values_to_encode)
diff --git a/category_encoders/polynomial.py b/category_encoders/polynomial.py
diff --git a/category_encoders/sum_coding.py b/category_encoders/sum_coding.py