fix tests

glemaitre · glemaitre · commit e9684c1d75f9 · 2025-08-14T12:10:07.000+02:00
diff --git a/imblearn/model_selection/_split.py b/imblearn/model_selection/_split.py
@@ -94,7 +94,7 @@ def split(self, X, y, groups=None):
         )
         # sorting first on y and then by the instance hardness
         sorted_indices = np.lexsort((y_proba[:, pos_label], y))
-        groups = np.zeros(len(X), dtype=int)
+        groups = np.empty(_num_samples(X), dtype=int)
         groups[sorted_indices] = np.arange(_num_samples(X)) % self.n_splits
         cv = LeaveOneGroupOut()
         for train_index, test_index in cv.split(X, y, groups):
diff --git a/imblearn/model_selection/tests/test_split.py b/imblearn/model_selection/tests/test_split.py
@@ -2,6 +2,7 @@
 import pytest
 from sklearn.datasets import make_classification
 from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import make_scorer, precision_score
 from sklearn.model_selection import cross_validate
 from sklearn.utils._testing import assert_allclose
 
@@ -11,20 +12,20 @@
 @pytest.fixture
 def data():
     return make_classification(
-        weights=[0.9, 0.1],
-        class_sep=2,
+        weights=[0.5, 0.5],
+        class_sep=0.5,
         n_informative=3,
         n_redundant=1,
         flip_y=0.05,
-        n_samples=1000,
+        n_samples=50,
         random_state=10,
     )
 
 
 def test_groups_parameter_warning(data):
     """Test that a warning is raised when groups parameter is provided."""
     X, y = data
-    ih_cv = InstanceHardnessCV(estimator=LogisticRegression())
+    ih_cv = InstanceHardnessCV(estimator=LogisticRegression(), n_splits=3)
 
     warning_msg = "The groups parameter is ignored by InstanceHardnessCV"
     with pytest.warns(UserWarning, match=warning_msg):
@@ -42,9 +43,11 @@ def test_error_on_multiclass():
 def test_default_params(data):
     """Test that the default parameters are used."""
     X, y = data
-    ih_cv = InstanceHardnessCV(estimator=LogisticRegression())
-    cv_result = cross_validate(LogisticRegression(), X, y, cv=ih_cv)
-    assert_allclose(cv_result["test_score"], [0.975, 0.965, 0.96, 0.955, 0.965])
+    ih_cv = InstanceHardnessCV(estimator=LogisticRegression(), n_splits=3)
+    cv_result = cross_validate(
+        LogisticRegression(), X, y, cv=ih_cv, scoring="precision"
+    )
+    assert_allclose(cv_result["test_score"], [0.625, 0.6, 0.625], atol=1e-6, rtol=1e-6)
 
 
 @pytest.mark.parametrize("dtype_target", [None, object])
@@ -53,9 +56,15 @@ def test_target_string_labels(data, dtype_target):
     X, y = data
     labels = np.array(["a", "b"], dtype=dtype_target)
     y = labels[y]
-    ih_cv = InstanceHardnessCV(estimator=LogisticRegression())
-    cv_result = cross_validate(LogisticRegression(), X, y, cv=ih_cv)
-    assert_allclose(cv_result["test_score"], [0.975, 0.965, 0.96, 0.955, 0.965])
+    ih_cv = InstanceHardnessCV(estimator=LogisticRegression(), n_splits=3)
+    cv_result = cross_validate(
+        LogisticRegression(),
+        X,
+        y,
+        cv=ih_cv,
+        scoring=make_scorer(precision_score, pos_label="b"),
+    )
+    assert_allclose(cv_result["test_score"], [0.625, 0.6, 0.625], atol=1e-6, rtol=1e-6)
 
 
 @pytest.mark.parametrize("dtype_target", [None, object])
@@ -68,9 +77,19 @@ def test_target_string_pos_label(data, dtype_target):
     X, y = data
     labels = np.array(["a", "b"], dtype=dtype_target)
     y = labels[y]
-    ih_cv = InstanceHardnessCV(estimator=LogisticRegression(), pos_label="a")
-    cv_result = cross_validate(LogisticRegression(), X, y, cv=ih_cv)
-    assert_allclose(cv_result["test_score"], [0.965, 0.975, 0.965, 0.955, 0.96])
+    ih_cv = InstanceHardnessCV(
+        estimator=LogisticRegression(), pos_label="a", n_splits=3
+    )
+    cv_result = cross_validate(
+        LogisticRegression(),
+        X,
+        y,
+        cv=ih_cv,
+        scoring=make_scorer(precision_score, pos_label="a"),
+    )
+    assert_allclose(
+        cv_result["test_score"], [0.666667, 0.666667, 0.4], atol=1e-6, rtol=1e-6
+    )
 
 
 @pytest.mark.parametrize("n_splits", [2, 3, 4])

Original file line number	Diff line number	Diff line change
`@@ -94,7 +94,7 @@ def split(self, X, y, groups=None):`
`94`	`94`	`)`
`95`	`95`	`# sorting first on y and then by the instance hardness`
`96`	`96`	`sorted_indices = np.lexsort((y_proba[:, pos_label], y))`
`97`		`- groups = np.zeros(len(X), dtype=int)`
	`97`	`+ groups = np.empty(_num_samples(X), dtype=int)`
`98`	`98`	`groups[sorted_indices] = np.arange(_num_samples(X)) % self.n_splits`
`99`	`99`	`cv = LeaveOneGroupOut()`
`100`	`100`	`for train_index, test_index in cv.split(X, y, groups):`