Dimension errors when using sklearn OneHotEncoder with min_frequency parameter

The [documentation ](https://interpret-community.readthedocs.io/en/latest/api_reference/interpret_community.mimic.mimic_explainer.html)suggests that the sklearn `OneHotEncoder` should be a viable transformation when using the `MimicExplainer`, but I'm getting errors if I use it and set the `min_frequency` parameter to remove category levels with low counts.

If I set up my data preprocessor like this 

![image](https://user-images.githubusercontent.com/40458315/199897407-2cf9534e-f758-41e4-82a3-8d1ed6ee2137.png)

(where I have ~7 categorical features, each with many levels)

```
# Define categorical transformer
categorical_transformer = Pipeline(
    steps=[
        ("cat_impute", SimpleImputer(strategy="constant", fill_value='missing')),
        ("onehot", OneHotEncoder(drop=None, handle_unknown="infrequent_if_exist", sparse=False, min_frequency=0.01)),
    ]
)
# Define numeric transformer
numeric_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler()),
    ]
)

data_preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features)       
    ],
    remainder="drop",
)
```

I get the following error
![image](https://user-images.githubusercontent.com/40458315/199896747-a777c501-0ac3-4b47-8b71-b25e2efe6d05.png)



**However**, if I set a different transformer for each categorical feature, the Explainer works, albeit with a `Many to one/many maps found in input` warning and produces outputs that don't really make sense (Half the features end up having very, very similar SHAP values). 

![image](https://user-images.githubusercontent.com/40458315/199897307-e661cea4-f0f7-4a14-a1d0-fa42ce359625.png)


```
# Define categorical transformer
categorical_transformer = Pipeline(
    steps=[
        ("cat_impute", SimpleImputer(strategy="constant", fill_value='missing')),
        ("onehot", OneHotEncoder(drop=None, handle_unknown="infrequent_if_exist", sparse=False, min_frequency=0.01)),
    ]
)
# Define numeric transformer
numeric_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler()),
    ]
)

# Construct list of categorical transformers 
categorical_treatments_list = [(feature, categorical_transformer, [feature]) for feature in categorical_features]

# Construct the data preprocessor
data_preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        *categorical_treatments_list
    ],
    remainder="drop",
)
```


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Dimension errors when using sklearn OneHotEncoder with min_frequency parameter #545

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Dimension errors when using sklearn OneHotEncoder with min_frequency parameter #545

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions