scikit-learn-contrib
diff --git a/‎category_encoders/backward_difference.py‎
Lines changed: 23 additions & 29 deletions b/‎category_encoders/backward_difference.py‎
Lines changed: 23 additions & 29 deletions
diff --git a/‎category_encoders/basen.py‎
Lines changed: 21 additions & 26 deletions b/‎category_encoders/basen.py‎
Lines changed: 21 additions & 26 deletions
diff --git a/‎category_encoders/binary.py‎
Lines changed: 21 additions & 26 deletions b/‎category_encoders/binary.py‎
Lines changed: 21 additions & 26 deletions
diff --git a/‎category_encoders/cat_boost.py‎
Lines changed: 18 additions & 21 deletions b/‎category_encoders/cat_boost.py‎
Lines changed: 18 additions & 21 deletions
diff --git a/‎category_encoders/count.py‎
Lines changed: 18 additions & 22 deletions b/‎category_encoders/count.py‎
Lines changed: 18 additions & 22 deletions
diff --git a/‎category_encoders/glmm.py‎
Lines changed: 19 additions & 22 deletions b/‎category_encoders/glmm.py‎
Lines changed: 19 additions & 22 deletions
diff --git a/‎category_encoders/gray.py‎
Lines changed: 21 additions & 26 deletions b/‎category_encoders/gray.py‎
Lines changed: 21 additions & 26 deletions
@@ -35,39 +35,33 @@ class BackwardDifferenceEncoder(BaseContrastEncoder):
     -------
     >>> from category_encoders import *
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
     >>> y = bunch.target
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = BackwardDifferenceEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = BackwardDifferenceEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 21 columns):
-    intercept    506 non-null int64
-    CRIM         506 non-null float64
-    ZN           506 non-null float64
-    INDUS        506 non-null float64
-    CHAS_0       506 non-null float64
-    NOX          506 non-null float64
-    RM           506 non-null float64
-    AGE          506 non-null float64
-    DIS          506 non-null float64
-    RAD_0        506 non-null float64
-    RAD_1        506 non-null float64
-    RAD_2        506 non-null float64
-    RAD_3        506 non-null float64
-    RAD_4        506 non-null float64
-    RAD_5        506 non-null float64
-    RAD_6        506 non-null float64
-    RAD_7        506 non-null float64
-    TAX          506 non-null float64
-    PTRATIO      506 non-null float64
-    B            506 non-null float64
-    LSTAT        506 non-null float64
-    dtypes: float64(20), int64(1)
-    memory usage: 83.1 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 12 columns):
+     #   Column        Non-Null Count  Dtype  
+    ---  ------        --------------  -----  
+     0   intercept     1460 non-null   int64  
+     1   Id            1460 non-null   float64
+     2   MSSubClass    1460 non-null   float64
+     3   MSZoning      1460 non-null   object 
+     4   LotFrontage   1201 non-null   float64
+     5   YearBuilt     1460 non-null   float64
+     6   Heating_0     1460 non-null   float64
+     7   Heating_1     1460 non-null   float64
+     8   Heating_2     1460 non-null   float64
+     9   Heating_3     1460 non-null   float64
+     10  Heating_4     1460 non-null   float64
+     11  CentralAir_0  1460 non-null   float64
+    dtypes: float64(10), int64(1), object(1)
+    memory usage: 137.0+ KB
     None
 
     References
 
@@ -62,36 +62,31 @@ class BaseNEncoder(util.BaseEncoder, util.UnsupervisedTransformerMixin):
     -------
     >>> from category_encoders import *
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
     >>> y = bunch.target
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = BaseNEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = BaseNEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 18 columns):
-    CRIM       506 non-null float64
-    ZN         506 non-null float64
-    INDUS      506 non-null float64
-    CHAS_0     506 non-null int64
-    CHAS_1     506 non-null int64
-    NOX        506 non-null float64
-    RM         506 non-null float64
-    AGE        506 non-null float64
-    DIS        506 non-null float64
-    RAD_0      506 non-null int64
-    RAD_1      506 non-null int64
-    RAD_2      506 non-null int64
-    RAD_3      506 non-null int64
-    RAD_4      506 non-null int64
-    TAX        506 non-null float64
-    PTRATIO    506 non-null float64
-    B          506 non-null float64
-    LSTAT      506 non-null float64
-    dtypes: float64(11), int64(7)
-    memory usage: 71.3 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 10 columns):
+     #   Column        Non-Null Count  Dtype  
+    ---  ------        --------------  -----  
+     0   Id            1460 non-null   float64
+     1   MSSubClass    1460 non-null   float64
+     2   MSZoning      1460 non-null   object 
+     3   LotFrontage   1201 non-null   float64
+     4   YearBuilt     1460 non-null   float64
+     5   Heating_0     1460 non-null   int64  
+     6   Heating_1     1460 non-null   int64  
+     7   Heating_2     1460 non-null   int64  
+     8   CentralAir_0  1460 non-null   int64  
+     9   CentralAir_1  1460 non-null   int64  
+    dtypes: float64(4), int64(5), object(1)
+    memory usage: 114.2+ KB
     None
 
     """
 
@@ -33,36 +33,31 @@ class BinaryEncoder(BaseNEncoder):
     -------
     >>> from category_encoders import *
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
     >>> y = bunch.target
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = BinaryEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = BinaryEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 18 columns):
-    CRIM       506 non-null float64
-    ZN         506 non-null float64
-    INDUS      506 non-null float64
-    CHAS_0     506 non-null int64
-    CHAS_1     506 non-null int64
-    NOX        506 non-null float64
-    RM         506 non-null float64
-    AGE        506 non-null float64
-    DIS        506 non-null float64
-    RAD_0      506 non-null int64
-    RAD_1      506 non-null int64
-    RAD_2      506 non-null int64
-    RAD_3      506 non-null int64
-    RAD_4      506 non-null int64
-    TAX        506 non-null float64
-    PTRATIO    506 non-null float64
-    B          506 non-null float64
-    LSTAT      506 non-null float64
-    dtypes: float64(11), int64(7)
-    memory usage: 71.3 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 10 columns):
+     #   Column        Non-Null Count  Dtype  
+    ---  ------        --------------  -----  
+     0   Id            1460 non-null   float64
+     1   MSSubClass    1460 non-null   float64
+     2   MSZoning      1460 non-null   object 
+     3   LotFrontage   1201 non-null   float64
+     4   YearBuilt     1460 non-null   float64
+     5   Heating_0     1460 non-null   int64  
+     6   Heating_1     1460 non-null   int64  
+     7   Heating_2     1460 non-null   int64  
+     8   CentralAir_0  1460 non-null   int64  
+     9   CentralAir_1  1460 non-null   int64  
+    dtypes: float64(4), int64(5), object(1)
+    memory usage: 114.2+ KB
     None
 
     """
 
@@ -54,31 +54,28 @@ class CatBoostEncoder(util.BaseEncoder, util.SupervisedTransformerMixin):
     -------
     >>> from category_encoders import *
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
     >>> y = bunch.target
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = CatBoostEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = CatBoostEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 13 columns):
-    CRIM       506 non-null float64
-    ZN         506 non-null float64
-    INDUS      506 non-null float64
-    CHAS       506 non-null float64
-    NOX        506 non-null float64
-    RM         506 non-null float64
-    AGE        506 non-null float64
-    DIS        506 non-null float64
-    RAD        506 non-null float64
-    TAX        506 non-null float64
-    PTRATIO    506 non-null float64
-    B          506 non-null float64
-    LSTAT      506 non-null float64
-    dtypes: float64(13)
-    memory usage: 51.5 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 7 columns):
+     #   Column       Non-Null Count  Dtype  
+    ---  ------       --------------  -----  
+     0   Id           1460 non-null   float64
+     1   MSSubClass   1460 non-null   float64
+     2   MSZoning     1460 non-null   object 
+     3   LotFrontage  1201 non-null   float64
+     4   YearBuilt    1460 non-null   float64
+     5   Heating      1460 non-null   float64
+     6   CentralAir   1460 non-null   float64
+    dtypes: float64(6), object(1)
+    memory usage: 80.0+ KB
     None
 
     References
 
@@ -71,34 +71,30 @@ def __init__(self, verbose=0, cols=None, drop_invariant=False,
         Example
         -------
         >>> import pandas as pd
-        >>> from sklearn.datasets import load_boston
+        >>> from sklearn.datasets import fetch_openml
         >>> from category_encoders import CountEncoder
 
-        >>> bunch = load_boston()
+        >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+        >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
         >>> y = bunch.target
-        >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-        >>> enc = CountEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+        >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+        >>> enc = CountEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
         >>> numeric_dataset = enc.transform(X)
-
         >>> print(numeric_dataset.info())
         <class 'pandas.core.frame.DataFrame'>
-        RangeIndex: 506 entries, 0 to 505
-        Data columns (total 13 columns):
-        CRIM       506 non-null float64
-        ZN         506 non-null float64
-        INDUS      506 non-null float64
-        CHAS       506 non-null int64
-        NOX        506 non-null float64
-        RM         506 non-null float64
-        AGE        506 non-null float64
-        DIS        506 non-null float64
-        RAD        506 non-null int64
-        TAX        506 non-null float64
-        PTRATIO    506 non-null float64
-        B          506 non-null float64
-        LSTAT      506 non-null float64
-        dtypes: float64(11), int64(2)
-        memory usage: 51.5 KB
+        RangeIndex: 1460 entries, 0 to 1459
+        Data columns (total 7 columns):
+         #   Column       Non-Null Count  Dtype  
+        ---  ------       --------------  -----  
+         0   Id           1460 non-null   float64
+         1   MSSubClass   1460 non-null   float64
+         2   MSZoning     1460 non-null   object 
+         3   LotFrontage  1201 non-null   float64
+         4   YearBuilt    1460 non-null   float64
+         5   Heating      1460 non-null   int64  
+         6   CentralAir   1460 non-null   int64  
+        dtypes: float64(4), int64(2), object(1)
+        memory usage: 80.0+ KB
         None
 
         References
 
@@ -60,31 +60,28 @@ class GLMMEncoder(util.BaseEncoder, util.SupervisedTransformerMixin):
     -------
     >>> from category_encoders import *
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
-    >>> y = bunch.target > 22.5
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = GLMMEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
+    >>> y = bunch.target > 200000
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = GLMMEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 13 columns):
-    CRIM       506 non-null float64
-    ZN         506 non-null float64
-    INDUS      506 non-null float64
-    CHAS       506 non-null float64
-    NOX        506 non-null float64
-    RM         506 non-null float64
-    AGE        506 non-null float64
-    DIS        506 non-null float64
-    RAD        506 non-null float64
-    TAX        506 non-null float64
-    PTRATIO    506 non-null float64
-    B          506 non-null float64
-    LSTAT      506 non-null float64
-    dtypes: float64(13)
-    memory usage: 51.5 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 7 columns):
+     #   Column       Non-Null Count  Dtype  
+    ---  ------       --------------  -----  
+     0   Id           1460 non-null   float64
+     1   MSSubClass   1460 non-null   float64
+     2   MSZoning     1460 non-null   object 
+     3   LotFrontage  1201 non-null   float64
+     4   YearBuilt    1460 non-null   float64
+     5   Heating      1460 non-null   float64
+     6   CentralAir   1460 non-null   float64
+    dtypes: float64(6), object(1)
+    memory usage: 80.0+ KB
     None
 
     References
 
@@ -40,36 +40,31 @@ class GrayEncoder(BaseNEncoder):
     -------
     >>> from category_encoders import GrayEncoder
     >>> import pandas as pd
-    >>> from sklearn.datasets import load_boston
-    >>> bunch = load_boston()
+    >>> from sklearn.datasets import fetch_openml
+    >>> bunch = fetch_openml(name="house_prices", as_frame=True)
+    >>> display_cols = ["Id", "MSSubClass", "MSZoning", "LotFrontage", "YearBuilt", "Heating", "CentralAir"]
     >>> y = bunch.target
-    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names_out_)
-    >>> enc = GrayEncoder(cols=['CHAS', 'RAD']).fit(X, y)
+    >>> X = pd.DataFrame(bunch.data, columns=bunch.feature_names)[display_cols]
+    >>> enc = GrayEncoder(cols=['CentralAir', 'Heating']).fit(X, y)
     >>> numeric_dataset = enc.transform(X)
     >>> print(numeric_dataset.info())
     <class 'pandas.core.frame.DataFrame'>
-    RangeIndex: 506 entries, 0 to 505
-    Data columns (total 18 columns):
-    CRIM       506 non-null float64
-    ZN         506 non-null float64
-    INDUS      506 non-null float64
-    CHAS_0     506 non-null int64
-    CHAS_1     506 non-null int64
-    NOX        506 non-null float64
-    RM         506 non-null float64
-    AGE        506 non-null float64
-    DIS        506 non-null float64
-    RAD_0      506 non-null int64
-    RAD_1      506 non-null int64
-    RAD_2      506 non-null int64
-    RAD_3      506 non-null int64
-    RAD_4      506 non-null int64
-    TAX        506 non-null float64
-    PTRATIO    506 non-null float64
-    B          506 non-null float64
-    LSTAT      506 non-null float64
-    dtypes: float64(11), int64(7)
-    memory usage: 71.3 KB
+    RangeIndex: 1460 entries, 0 to 1459
+    Data columns (total 10 columns):
+     #   Column        Non-Null Count  Dtype  
+    ---  ------        --------------  -----  
+     0   Id            1460 non-null   float64
+     1   MSSubClass    1460 non-null   float64
+     2   MSZoning      1460 non-null   object 
+     3   LotFrontage   1201 non-null   float64
+     4   YearBuilt     1460 non-null   float64
+     5   Heating_0     1460 non-null   int64  
+     6   Heating_1     1460 non-null   int64  
+     7   Heating_2     1460 non-null   int64  
+     8   CentralAir_0  1460 non-null   int64  
+     9   CentralAir_1  1460 non-null   int64  
+    dtypes: float64(4), int64(5), object(1)
+    memory usage: 114.2+ KB
     None
 
     References