fix: iForest feature mapping (#620)

willy-liu · hcho3 · web-flow · commit c0a7009af269 · 2025-09-30T12:20:28.000-07:00
* fix: iForest feature mapping

Ensure correct handling of feature subsampling in Isolation Forest.
When `max_features != 1.0`, the feature index is subsampled, which
could affect mapping consistency.

* test: add test for IsolationForest with max_features &lt; 1.0

Adds a unit test to validate Treelite's import_model for
IsolationForest when max_features is set to a random float
between 0.2 and 0.8.

* Fix formatting

---------

Co-authored-by: Philip Hyunsu Cho &lt;chohyu01@cs.washington.edu&gt;
Co-authored-by: Hyunsu Cho &lt;phcho@nvidia.com&gt;
diff --git a/python/treelite/sklearn/importer.py b/python/treelite/sklearn/importer.py
@@ -180,7 +180,7 @@ def import_model(sklearn_model) -> Model:
     n_node_samples = ArrayOfArrays(dtype=np.int64)
     weighted_n_node_samples = ArrayOfArrays(dtype=np.float64)
     impurity = ArrayOfArrays(dtype=np.float64)
-    for estimator in sklearn_model.estimators_:
+    for tree_idx, estimator in enumerate(sklearn_model.estimators_):
         if isinstance(sklearn_model, (GradientBoostingR, GradientBoostingC)):
             estimator_range = estimator
             learning_rate = sklearn_model.learning_rate
@@ -197,20 +197,31 @@ def import_model(sklearn_model) -> Model:
             node_count.append(tree.node_count)
             children_left.add(tree.children_left, expected_shape=(tree.node_count,))
             children_right.add(tree.children_right, expected_shape=(tree.node_count,))
-            feature.add(tree.feature, expected_shape=(tree.node_count,))
             threshold.add(tree.threshold, expected_shape=(tree.node_count,))
             if isinstance(sklearn_model, IsolationForest):
                 value.add(
                     isolation_depths.reshape((-1, 1, 1)),
                     expected_shape=leaf_value_expected_shape(tree.node_count),
                 )
+                # Note: for isolation forest, if max_features != 1.0
+                # the feature index will be subsampled
+                feature_subsample = np.full(tree.feature.shape, -2, dtype=np.int64)
+                mask = tree.feature != -2
+                feature_subsample[mask] = np.array(
+                    sklearn_model.estimators_features_[tree_idx]
+                )[tree.feature[mask]]
+                feature.add(
+                    feature_subsample.astype(np.int64),
+                    expected_shape=(tree.node_count,),
+                )
             else:
                 # Note: for gradient boosted trees, we shrink each leaf output by the
                 # learning rate
                 value.add(
                     tree.value * learning_rate,
                     expected_shape=leaf_value_expected_shape(tree.node_count),
                 )
+                feature.add(tree.feature, expected_shape=(tree.node_count,))
             n_node_samples.add(tree.n_node_samples, expected_shape=(tree.node_count,))
             weighted_n_node_samples.add(
                 tree.weighted_n_node_samples, expected_shape=(tree.node_count,)
diff --git a/tests/python/test_sklearn_integration.py b/tests/python/test_sklearn_integration.py
@@ -195,6 +195,30 @@ def test_skl_converter_iforest(dataset):
     np.testing.assert_almost_equal(out_pred, expected_pred)
 
 
+@given(
+    dataset=standard_regression_datasets(),
+    max_feat=floats(min_value=0.2, max_value=0.8),
+)
+@settings(**standard_settings())
+def test_skl_converter_iforest_feature_subsampling(dataset, max_feat):
+    """Scikit-learn isolation forest with feature subsampling"""
+    X, _ = dataset
+    clf = IsolationForest(
+        max_samples=64,
+        max_features=max_feat,
+        n_estimators=10,
+        n_jobs=-1,
+        random_state=0,
+    )
+    clf.fit(X)
+    expected_pred = -clf.score_samples(X).reshape((-1, 1, 1))
+
+    tl_model = treelite.sklearn.import_model(clf)
+    out_pred = treelite.gtil.predict(tl_model, X)
+
+    np.testing.assert_almost_equal(out_pred, expected_pred, decimal=5)
+
+
 @given(
     dataset=standard_classification_datasets(
         n_classes=integers(min_value=2, max_value=4),