Merge pull request #376 from PaulWestenthanner/feature/gray_encoder

PaulWestenthanner · web-flow · commit 9ea4abaf62ab · 2022-10-24T20:19:06.000+02:00
added gray encoder
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,6 @@
 unreleased
 ==========
+* added gray encoder
 
 v2.5.1.post0
 ============
diff --git a/README.md b/README.md
@@ -20,6 +20,7 @@ __Unsupervised:__
  * Backward Difference Contrast [2][3]
  * BaseN [6]
  * Binary [5]
+ * Gray [14]
  * Count [10]
  * Hashing [1]
  * Helmert Contrast [2][3]
@@ -147,4 +148,4 @@ References
  11. Transforming categorical features to numerical features. From https://tech.yandex.com/catboost/doc/dg/concepts/algorithm-main-stages_cat-to-numberic-docpage/
  12. Andrew Gelman and Jennifer Hill (2006). Data Analysis Using Regression and Multilevel/Hierarchical Models. From https://faculty.psau.edu.sa/filedownload/doc-12-pdf-a1997d0d31f84d13c1cdc44ac39a8f2c-original.pdf
  13. Carlos Mougan, David Masip, Jordi Nin and Oriol Pujol (2021). Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems. https://link.springer.com/chapter/10.1007%2F978-3-030-85529-1_14
- 
+ 14. Gray Encoding. From https://en.wikipedia.org/wiki/Gray_code 
diff --git a/category_encoders/__init__.py b/category_encoders/__init__.py
@@ -8,6 +8,7 @@
 
 from category_encoders.backward_difference import BackwardDifferenceEncoder
 from category_encoders.binary import BinaryEncoder
+from category_encoders.gray import GrayEncoder
 from category_encoders.count import CountEncoder
 from category_encoders.hashing import HashingEncoder
 from category_encoders.helmert import HelmertEncoder
@@ -32,6 +33,7 @@
 __all__ = [
     "BackwardDifferenceEncoder",
     "BinaryEncoder",
+    "GrayEncoder",
     "CountEncoder",
     "HashingEncoder",
     "HelmertEncoder",
diff --git a/category_encoders/gray.py b/category_encoders/gray.py
@@ -0,0 +1,113 @@
+"""Gray encoding"""
+from functools import partialmethod
+
+import pandas as pd
+
+from category_encoders import utils
+from category_encoders.basen import BaseNEncoder
+from typing import List
+
+__author__ = 'paulwestenthanner'
+
+
+class GrayEncoder(BaseNEncoder):
+    """Gray encoding for categorical variables.
+    Gray encoding is a form of binary encoding where consecutive values only differ by a single bit.
+    Hence, gray encoding only makes sense for ordinal features.
+    This has benefits in privacy preserving data publishing.
+
+    Parameters
+    ----------
+
+    verbose: int
+        integer indicating verbosity of the output. 0 for none.
+    cols: list
+        a list of columns to encode, if None, all string columns will be encoded.
+    drop_invariant: bool
+        boolean for whether or not to drop columns with 0 variance.
+    return_df: bool
+        boolean for whether to return a pandas DataFrame from transform (otherwise it will be a numpy array).
+    handle_unknown: str
+        options are 'error', 'return_nan', 'value', and 'indicator'. The default is 'value'. Warning: if indicator is used,
+        an extra column will be added in if the transform matrix has unknown categories.  This can cause
+        unexpected changes in dimension in some cases.
+    handle_missing: str
+        options are 'error', 'return_nan', 'value', and 'indicator'. The default is 'value'. Warning: if indicator is used,
+        an extra column will be added in if the transform matrix has nan values.  This can cause
+        unexpected changes in dimension in some cases.
+
+    Example
+    -------
+    >>> from category_encoders import GrayEncoder
+    >>> import pandas as pd
+    >>> from sklearn.datasets import load_boston
+    >>> bunch = load_boston()
+    >>> y = bunch.target
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)
+    >>> enc = GrayEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> numeric_dataset = enc.transform(X)
+    >>> print(numeric_dataset.info())
+    <class 'pandas.core.frame.DataFrame'>
+    RangeIndex: 506 entries, 0 to 505
+    Data columns (total 18 columns):
+    CRIM       506 non-null float64
+    ZN         506 non-null float64
+    INDUS      506 non-null float64
+    CHAS_0     506 non-null int64
+    CHAS_1     506 non-null int64
+    NOX        506 non-null float64
+    RM         506 non-null float64
+    AGE        506 non-null float64
+    DIS        506 non-null float64
+    RAD_0      506 non-null int64
+    RAD_1      506 non-null int64
+    RAD_2      506 non-null int64
+    RAD_3      506 non-null int64
+    RAD_4      506 non-null int64
+    TAX        506 non-null float64
+    PTRATIO    506 non-null float64
+    B          506 non-null float64
+    LSTAT      506 non-null float64
+    dtypes: float64(11), int64(7)
+    memory usage: 71.3 KB
+    None
+
+    References
+    ----------
+
+    .. [1] https://en.wikipedia.org/wiki/Gray_code
+    .. [2] Jun Zhang, Graham Cormode, Cecilia M. Procopiuc, Divesh Srivastava, and Xiaokui Xiao. 2017. PrivBayes:
+    Private Data Release via Bayesian Networks. ACM Trans. Database Syst. 42, 4, Article 25 (October 2017)
+    """
+    encoding_relation = utils.EncodingRelation.ONE_TO_M
+    __init__ = partialmethod(BaseNEncoder.__init__, base=2)
+
+    @staticmethod
+    def gray_code(n, n_bit) -> List[int]:
+        gray = n ^ (n >> 1)
+        gray_formatted = "{0:0{1}b}".format(gray, n_bit)
+        return [int(bit) for bit in gray_formatted]
+
+    def _fit(self, X, y=None, **kwargs):
+        super(GrayEncoder, self)._fit(X, y, **kwargs)
+        gray_mapping = []
+        # convert binary mapping to Gray mapping and reorder
+        for col_to_encode in self.mapping:
+            col = col_to_encode["col"]
+            bin_mapping = col_to_encode["mapping"]
+            n_cols_out = bin_mapping.shape[1]
+            null_cond = (bin_mapping.index < 0) | (bin_mapping.isnull().all(1))
+            map_null = bin_mapping[null_cond]
+            map_non_null = bin_mapping[~null_cond].copy()
+            ordinal_mapping = [m for m in self.ordinal_encoder.mapping if m.get("col") == col]
+            if len(ordinal_mapping) != 1:
+                raise ValueError("Cannot find ordinal encoder mapping of Gray encoder")
+            ordinal_mapping = ordinal_mapping[0]["mapping"]
+            reverse_ordinal_mapping = {v: k for k, v in ordinal_mapping.to_dict().items()}
+            map_non_null["orig_value"] = map_non_null.index.to_series().map(reverse_ordinal_mapping)
+            map_non_null = map_non_null.sort_values(by="orig_value")
+            gray_encoding = [self.gray_code(i + 1, n_cols_out) for i in range(map_non_null.shape[0])]
+            gray_encoding = pd.DataFrame(data=gray_encoding, index=map_non_null.index, columns=bin_mapping.columns)
+            gray_encoding = pd.concat([gray_encoding, map_null])
+            gray_mapping.append({"col": col, "mapping": gray_encoding})
+        self.mapping = gray_mapping
diff --git a/docs/source/gray.rst b/docs/source/gray.rst
@@ -0,0 +1,6 @@
+Gray
+====
+
+.. autoclass:: category_encoders.gray.GaryEncoder
+    :members:
+    :inherited-members:
diff --git a/docs/source/index.rst b/docs/source/index.rst
@@ -44,6 +44,7 @@ To use:
     encoder = ce.CatBoostEncoder(cols=[...])
     encoder = ce.CountEncoder(cols=[...])
     encoder = ce.GLMMEncoder(cols=[...])
+    encoder = ce.GrayEncoder(cols=[...])
     encoder = ce.HashingEncoder(cols=[...])
     encoder = ce.HelmertEncoder(cols=[...])
     encoder = ce.JamesSteinEncoder(cols=[...])
@@ -74,6 +75,7 @@ Contents:
    catboost
    count
    glmm
+   gray
    hashing
    helmert
    jamesstein
diff --git a/tests/test_encoders.py b/tests/test_encoders.py
@@ -624,13 +624,17 @@ def test_metamorphic(self):
                 result5 = enc5.fit_transform(x5, y)
                 self.assertTrue((result1.values == result5.values).all())
 
-                enc6 = getattr(encoders, encoder_name)()
-                result6 = enc6.fit_transform(x6, y)
-                self.assertTrue((result1.values == result6.values).all())
-
-                enc7 = getattr(encoders, encoder_name)()
-                result7 = enc7.fit_transform(x7, y)
-                self.assertTrue((result1.values == result7.values).all())
+                # gray encoder re-orders inputs so that nan is last, hence the output is changed
+                if encoder_name != "GrayEncoder":
+                    enc6 = getattr(encoders, encoder_name)()
+                    result6 = enc6.fit_transform(x6, y)
+                    self.assertTrue((result1.values == result6.values).all())
+
+                # gray encoder actually does re-order inputs
+                if encoder_name != "GrayEncoder":
+                    enc7 = getattr(encoders, encoder_name)()
+                    result7 = enc7.fit_transform(x7, y)
+                    self.assertTrue((result1.values == result7.values).all())
 
                 # Arguments
                 enc9 = getattr(encoders, encoder_name)(return_df=False)
diff --git a/tests/test_gray.py b/tests/test_gray.py
@@ -0,0 +1,85 @@
+import pandas as pd
+from unittest import TestCase
+import numpy as np
+
+import category_encoders as encoders
+
+
+class TestGrayEncoder(TestCase):
+
+    def test_gray_sorting(self):
+        data = np.array(['ba', 'ba', 'aa'])
+        out = encoders.GrayEncoder().fit_transform(data)
+        expected = pd.DataFrame([[1, 1], [1, 1], [0, 1]], columns=['0_0', '0_1'])
+        pd.testing.assert_frame_equal(out, expected)
+
+    def test_gray_mapping(self):
+        train_data = pd.DataFrame()
+        train_data["cat_col"] = np.array([4, 9, 6, 7, 7, 9])
+        train_data["other_col"] = range(train_data.shape[0])
+        encoder = encoders.GrayEncoder(cols=["cat_col"])
+        encoder.fit(train_data)
+
+        expected_ordinal_mapping = {4.0: 1, 9.0: 2, 6.0: 3, 7.0: 4, "nan": -2}
+        expected_mapping = pd.DataFrame(
+            [
+                [0, 0, 1],
+                [0, 1, 1],
+                [0, 1, 0],
+                [1, 1, 0],
+                [0, 0, 0],
+                [0, 0, 0],
+            ], columns=[f"cat_col_{i}" for i in range(3)], index=[1, 3, 4, 2, -1, -2]
+        )
+        self.assertEqual(len(encoder.mapping), 1)
+        self.assertEqual(len(encoder.mapping[0].keys()), 2)
+
+        actual_ordinal_encoding = encoder.ordinal_encoder.mapping[0]["mapping"]
+        actual_ordinal_encoding.index = actual_ordinal_encoding.index.fillna("nan")
+        self.assertDictEqual(actual_ordinal_encoding.to_dict(), expected_ordinal_mapping)
+        pd.testing.assert_frame_equal(encoder.mapping[0]["mapping"], expected_mapping)
+
+        train_transformed = encoder.transform(train_data)
+        train_data["cat_col"] = np.array([4, 9, 6, 7, 7, 9])
+        expected_train_transformed = [
+            [0, 0, 1, 0],
+            [1, 1, 0, 1],
+            [0, 1, 1, 2],
+            [0, 1, 0, 3],
+            [0, 1, 0, 4],
+            [1, 1, 0, 5],
+        ]
+        expected_train_transformed = pd.DataFrame(expected_train_transformed,
+                                                  columns=[f"cat_col_{i}" for i in range(3)] + ["other_col"],
+                                                  index=train_data.index)
+        pd.testing.assert_frame_equal(train_transformed, expected_train_transformed)
+        test_data = pd.DataFrame()
+        test_data["cat_col"] = np.array([4, 3, None, np.nan])
+        test_data["other_col"] = range(test_data.shape[0])
+        expected_test_transformed = [
+            [0, 0, 1, 0],
+            [0, 0, 0, 1],
+            [0, 0, 0, 2],
+            [0, 0, 0, 3],
+        ]
+        expected_test_transformed = pd.DataFrame(expected_test_transformed,
+                                                 columns=[f"cat_col_{i}" for i in range(3)] + ["other_col"],
+                                                 index=test_data.index)
+        test_transformed = encoder.transform(test_data)
+        pd.testing.assert_frame_equal(test_transformed, expected_test_transformed)
+
+    def test_gray_code(self):
+        input_expected_output = {
+            (0, 0): [0],
+            (0, 1): [0],
+            (0, 3): [0, 0, 0],
+            (1, 1): [1],
+            (1, 3): [0, 0, 1],
+            (2, 2): [1, 1],
+            (13, 4): [1, 0, 1, 1],
+            (13, 6): [0, 0, 1, 0, 1, 1],
+        }
+        for test_input, expected_output in input_expected_output.items():
+            n, n_bits = test_input
+            out = encoders.GrayEncoder.gray_code(n, n_bits)
+            self.assertEqual(out, expected_output)