introduce get_features_name_out in accordance to sklearn guidelines

PaulWestenthanner · PaulWestenthanner · commit 52335ff9ab86 · 2022-11-06T20:41:15.000+01:00
diff --git a/category_encoders/quantile_encoder.py b/category_encoders/quantile_encoder.py
@@ -1,13 +1,17 @@
 """Quantile Encoder"""
 __author__ = "david26694", "cmougan"
 
+from functools import reduce
+import operator
+from typing import List
+import warnings
+
 import numpy as np
-from category_encoders.ordinal import OrdinalEncoder
+import pandas as pd
 from sklearn.base import BaseEstimator
+
 import category_encoders.utils as util
-import pandas as pd
-from functools import reduce
-import operator
+from category_encoders.ordinal import OrdinalEncoder
 
 
 class QuantileEncoder(util.BaseEncoder, util.SupervisedTransformerMixin):
@@ -334,15 +338,20 @@ def transform(self, X, y=None, override_return_df=False):
             else:
                 new_feat = X_encoded[[c for c in X_encoded.columns if c not in orig_cols]]
                 transformed_df = pd.concat([transformed_df, new_feat], axis=1)
-        feature_order = [c for c in self.get_feature_names() if c in transformed_df]
+        feature_order = [c for c in self.get_feature_names_out() if c in transformed_df]
         transformed_df = transformed_df[feature_order]
 
         if self.return_df or override_return_df:
             return transformed_df
         else:
             return transformed_df.values
 
-    def get_feature_names(self):
+    def get_feature_names(self) -> List[str]:
+        warnings.warn("`get_feature_names` is deprecated in all of sklearn. Use `get_feature_names_out` instead.",
+                      category=FutureWarning)
+        return self.get_feature_names_out()
+
+    def get_feature_names_out(self):
         """
         Returns the names of all transformed / added columns.
         Returns
diff --git a/category_encoders/utils.py b/category_encoders/utils.py
@@ -1,6 +1,7 @@
 """A collection of shared utilities for all encoders, not intended for external use."""
 from abc import abstractmethod
 from enum import Enum, auto
+import warnings
 
 import pandas as pd
 import numpy as np
@@ -356,6 +357,11 @@ def _get_fit_columns(self, X: pd.DataFrame) -> None:
             self.cols = convert_cols_to_list(self.cols)
 
     def get_feature_names(self) -> List[str]:
+        warnings.warn("`get_feature_names` is deprecated in all of sklearn. Use `get_feature_names_out` instead.",
+                      category=FutureWarning)
+        return self.get_feature_names_out()
+
+    def get_feature_names_out(self) -> List[str]:
         """
         Returns the names of all transformed / added columns.
 
diff --git a/tests/test_encoders.py b/tests/test_encoders.py
@@ -443,47 +443,47 @@ def test_string_index(self):
                 result = enc.fit_transform(X, y)
                 self.assertFalse(result.isnull().values.any(), 'There should not be any missing value!')
 
-    def test_get_feature_names(self):
+    def test_get_feature_names_out(self):
         for encoder_name in encoders.__all__:
             with self.subTest(encoder_name=encoder_name):
                 enc = getattr(encoders, encoder_name)()
                 # Target encoders also need y
                 if enc._get_tags().get('supervised_encoder'):
-                    obtained = enc.fit(X, y).get_feature_names()
+                    obtained = enc.fit(X, y).get_feature_names_out()
                     expected = enc.transform(X, y).columns.tolist()
                 else:
-                    obtained = enc.fit(X).get_feature_names()
+                    obtained = enc.fit(X).get_feature_names_out()
                     expected = enc.transform(X).columns.tolist()
                 self.assertEqual(obtained, expected)
 
-    def test_get_feature_names_drop_invariant(self):
+    def test_get_feature_names_out_drop_invariant(self):
         # TODO: What could a DF look like that results in constant
         # columns for all encoders?
         for encoder_name in encoders.__all__:
             with self.subTest(encoder_name=encoder_name):
                 enc = getattr(encoders, encoder_name)(drop_invariant=True)
                 # Target encoders also need y
                 if enc._get_tags().get('supervised_encoder'):
-                    obtained = enc.fit(X, y).get_feature_names()
+                    obtained = enc.fit(X, y).get_feature_names_out()
                     expected = enc.transform(X, y).columns.tolist()
                 else:
-                    obtained = enc.fit(X).get_feature_names()
+                    obtained = enc.fit(X).get_feature_names_out()
                     expected = enc.transform(X).columns.tolist()
                 self.assertEqual(obtained, expected)
 
-    def test_get_feature_names_not_set(self):
+    def test_get_feature_names_out_not_set(self):
         for encoder_name in encoders.__all__:
             with self.subTest(encoder_name=encoder_name):
                 enc = getattr(encoders, encoder_name)()
-                self.assertRaises(ValueError, enc.get_feature_names)
+                self.assertRaises(ValueError, enc.get_feature_names_out)
 
-    def test_get_feature_names_after_transform(self):
+    def test_get_feature_names_out_after_transform(self):
         for encoder_name in encoders.__all__:
             with self.subTest(encoder_name=encoder_name):
                 enc = getattr(encoders, encoder_name)()
                 enc.fit(X, y)
                 out = enc.transform(X_t)
-                self.assertEqual(set(enc.get_feature_names()), set(out.columns))
+                self.assertEqual(set(enc.get_feature_names_out()), set(out.columns))
 
     def test_truncated_index(self):
         # see: https://github.com/scikit-learn-contrib/categorical-encoding/issues/152