clean up

glemaitre · glemaitre · commit 79cc5e103c66 · 2024-12-18T20:57:38.000+01:00
diff --git a/.coveragerc b/.coveragerc
@@ -10,3 +10,4 @@ ignore_errors = True
 omit =
     */tests/*
     **/setup.py
+    **/_sklearn_compat.py
diff --git a/imblearn/over_sampling/_smote/base.py b/imblearn/over_sampling/_smote/base.py
@@ -13,6 +13,7 @@
 import numpy as np
 import sklearn
 from scipy import sparse
+from scipy.stats import mode
 from sklearn.base import clone
 from sklearn.exceptions import DataConversionWarning
 from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
@@ -31,9 +32,8 @@
 from ...metrics.pairwise import ValueDifferenceMetric
 from ...utils import Substitution, check_neighbors_object, check_target_type
 from ...utils._docstring import _n_jobs_docstring, _random_state_docstring
-from ...utils._sklearn_compat import validate_data
+from ...utils._sklearn_compat import _is_pandas_df, validate_data
 from ...utils._validation import _check_X
-from ...utils.fixes import _is_pandas_df, _mode
 from ..base import BaseOverSampler
 
 sklearn_version = parse_version(sklearn.__version__).base_version
@@ -997,7 +997,8 @@ def _make_samples(self, X_class, klass, y_dtype, nn_indices, n_samples):
         # where for each feature individually, each category generated is the
         # most common category
         X_new = np.squeeze(
-            _mode(X_class[nn_indices[samples_indices]], axis=1).mode, axis=1
+            mode(X_class[nn_indices[samples_indices]], axis=1, keepdims=True).mode,
+            axis=1,
         )
         y_new = np.full(n_samples, fill_value=klass, dtype=y_dtype)
         return X_new, y_new
diff --git a/imblearn/under_sampling/_prototype_selection/_edited_nearest_neighbours.py b/imblearn/under_sampling/_prototype_selection/_edited_nearest_neighbours.py
@@ -10,12 +10,12 @@
 from collections import Counter
 
 import numpy as np
+from scipy.stats import mode
 from sklearn.utils import _safe_indexing
 from sklearn.utils._param_validation import HasMethods, Interval, StrOptions
 
 from ...utils import Substitution, check_neighbors_object
 from ...utils._docstring import _n_jobs_docstring
-from ...utils.fixes import _mode
 from ..base import BaseCleaningSampler
 
 SEL_KIND = ("all", "mode")
@@ -168,7 +168,7 @@ def _fit_resample(self, X, y):
                 nnhood_idx = self.nn_.kneighbors(X_class, return_distance=False)[:, 1:]
                 nnhood_label = y[nnhood_idx]
                 if self.kind_sel == "mode":
-                    nnhood_label, _ = _mode(nnhood_label, axis=1)
+                    nnhood_label, _ = mode(nnhood_label, axis=1, keepdims=False)
                     nnhood_bool = np.ravel(nnhood_label) == y_class
                 elif self.kind_sel == "all":
                     nnhood_label = nnhood_label == target_class
diff --git a/imblearn/utils/_sklearn_compat.py b/imblearn/utils/_sklearn_compat.py
@@ -240,12 +240,23 @@ def _raise_for_params(params, owner, method):
                 f" details. Extra parameters passed are: {set(params)}"
             )
 
+    def _is_pandas_df(X):
+        """Return True if the X is a pandas dataframe."""
+        try:
+            pd = sys.modules["pandas"]
+        except KeyError:
+            return False
+        return isinstance(X, pd.DataFrame)
+
 else:
     from sklearn.utils._metadata_requests import (
         _raise_for_params,  # noqa: F401
         process_routing,  # noqa: F401
     )
-    from sklearn.utils.validation import _is_fitted  # noqa: F401
+    from sklearn.utils.validation import (
+        _is_fitted,  # noqa: F401
+        _is_pandas_df,  # noqa: F401
+    )
 
 
 ########################################################################################
diff --git a/imblearn/utils/_validation.py b/imblearn/utils/_validation.py
@@ -17,8 +17,7 @@
 from sklearn.utils.multiclass import type_of_target
 from sklearn.utils.validation import _num_samples
 
-from ..utils._sklearn_compat import check_array
-from .fixes import _is_pandas_df
+from ..utils._sklearn_compat import _is_pandas_df, check_array
 
 SAMPLING_KIND = (
     "over-sampling",
diff --git a/imblearn/utils/fixes.py b/imblearn/utils/fixes.py