MAINT Changed the use of ColumnTransformer to make_column_transformer (INRIA#831)

SebastienMelo · SebastienMelo · ArturoAmorQ · web-flow · commit 6625d0c3d2ea · 2025-05-27T17:15:45.000+02:00
* changed besides to additionally for better phrasing

* Apply suggestions from code review

* Changed the use of ColumnTransformer to make_column_transformer

* fixed format

* fixed format

* changed additional mentions of ColumnTransformer

* Rerender notebooks

---------

Co-authored-by: SebastienMelo &lt;seastien.melo@polytechnique.edu&gt;
Co-authored-by: Arturo Amor &lt;86408019+ArturoAmorQ@users.noreply.github.com&gt;
Co-authored-by: Olivier Grisel &lt;olivier.grisel@ensta.org&gt;
diff --git a/jupyter-book/appendix/glossary.md b/jupyter-book/appendix/glossary.md
@@ -368,7 +368,7 @@ The dataset used to train the [model](#model).
 
 An [estimator](#estimator) (i.e. an object that has a `fit` method) supporting
 `transform` and/or `fit_transform`. Examples for transformers are
-`StandardScaler` or `ColumnTransformer`.
+`StandardScaler` or `OneHotEncoder`.
 
 ### underfitting
 
diff --git a/notebooks/03_categorical_pipeline_column_transformer.ipynb b/notebooks/03_categorical_pipeline_column_transformer.ipynb
@@ -96,9 +96,10 @@
     "  categories.\n",
     "* **numerical scaling** numerical features which will be standardized.\n",
     "\n",
-    "Now, we create our `ColumnTransfomer` by specifying three values: the\n",
-    "preprocessor name, the transformer, and the columns. First, let's create the\n",
-    "preprocessors for the numerical and categorical parts."
+    "Now, we create our `ColumnTransfomer` using the helper function\n",
+    "`make_column_transformer`. We specify two values: the transformer, and the\n",
+    "columns. First, let's create the preprocessors for the numerical and\n",
+    "categorical parts."
    ]
   },
   {
@@ -127,13 +128,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [\n",
-    "        (\"one-hot-encoder\", categorical_preprocessor, categorical_columns),\n",
-    "        (\"standard_scaler\", numerical_preprocessor, numerical_columns),\n",
-    "    ]\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
+    "    (numerical_preprocessor, numerical_columns),\n",
     ")"
    ]
   },
@@ -365,8 +364,8 @@
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
     "\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"categorical\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
diff --git a/notebooks/03_categorical_pipeline_ex_02.ipynb b/notebooks/03_categorical_pipeline_ex_02.ipynb
@@ -82,18 +82,19 @@
     "\n",
     "from sklearn.model_selection import cross_validate\n",
     "from sklearn.pipeline import make_pipeline\n",
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "from sklearn.ensemble import HistGradientBoostingClassifier\n",
     "\n",
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"categorical\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
+    "\n",
     "model = make_pipeline(preprocessor, HistGradientBoostingClassifier())\n",
     "\n",
     "start = time.time()\n",
diff --git a/notebooks/03_categorical_pipeline_sol_02.ipynb b/notebooks/03_categorical_pipeline_sol_02.ipynb
@@ -82,18 +82,19 @@
     "\n",
     "from sklearn.model_selection import cross_validate\n",
     "from sklearn.pipeline import make_pipeline\n",
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "from sklearn.ensemble import HistGradientBoostingClassifier\n",
     "\n",
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"categorical\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
+    "\n",
     "model = make_pipeline(preprocessor, HistGradientBoostingClassifier())\n",
     "\n",
     "start = time.time()\n",
@@ -130,17 +131,12 @@
     "\n",
     "from sklearn.preprocessing import StandardScaler\n",
     "\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [\n",
-    "        (\"numerical\", StandardScaler(), numerical_columns),\n",
-    "        (\n",
-    "            \"categorical\",\n",
-    "            OrdinalEncoder(\n",
-    "                handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
-    "            ),\n",
-    "            categorical_columns,\n",
-    "        ),\n",
-    "    ]\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (StandardScaler(), numerical_columns),\n",
+    "    (\n",
+    "        OrdinalEncoder(handle_unknown=\"use_encoded_value\", unknown_value=-1),\n",
+    "        categorical_columns,\n",
+    "    ),\n",
     ")\n",
     "\n",
     "model = make_pipeline(preprocessor, HistGradientBoostingClassifier())\n",
@@ -209,8 +205,8 @@
     "categorical_preprocessor = OneHotEncoder(\n",
     "    handle_unknown=\"ignore\", sparse_output=False\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"one-hot-encoder\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
diff --git a/notebooks/parameter_tuning_ex_02.ipynb b/notebooks/parameter_tuning_ex_02.ipynb
@@ -41,21 +41,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.compose import make_column_selector as selector\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "\n",
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [\n",
-    "        (\n",
-    "            \"cat_preprocessor\",\n",
-    "            categorical_preprocessor,\n",
-    "            selector(dtype_include=object),\n",
-    "        )\n",
-    "    ],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, selector(dtype_include=object)),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
@@ -113,6 +107,13 @@
    "source": [
     "# Write your code here."
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
diff --git a/notebooks/parameter_tuning_grid_search.ipynb b/notebooks/parameter_tuning_grid_search.ipynb
@@ -142,7 +142,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "We then use a `ColumnTransformer` to select the categorical columns and apply\n",
+    "We then use `make_column_transformer` to select the categorical columns and apply\n",
     "the `OrdinalEncoder` to them."
    ]
   },
@@ -152,10 +152,10 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"cat_preprocessor\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     "    # Silence a deprecation warning in scikit-learn v1.6 related to how the\n",
     "    # ColumnTransformer stores an attribute that we do not use in this notebook\n",
diff --git a/notebooks/parameter_tuning_nested.ipynb b/notebooks/parameter_tuning_nested.ipynb
@@ -55,7 +55,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "from sklearn.compose import make_column_selector as selector\n",
     "\n",
@@ -65,10 +65,8 @@
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [\n",
-    "        (\"cat_preprocessor\", categorical_preprocessor, categorical_columns),\n",
-    "    ],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     "    force_int_remainder_cols=False,  # Silence a warning in scikit-learn v1.6.\n",
     ")"
diff --git a/notebooks/parameter_tuning_randomized_search.ipynb b/notebooks/parameter_tuning_randomized_search.ipynb
@@ -108,7 +108,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "from sklearn.compose import make_column_selector as selector\n",
     "\n",
@@ -118,8 +118,8 @@
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [(\"cat_preprocessor\", categorical_preprocessor, categorical_columns)],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, categorical_columns),\n",
     "    remainder=\"passthrough\",\n",
     "    force_int_remainder_cols=False,  # Silence a warning in scikit-learn v1.6.\n",
     ")"
diff --git a/notebooks/parameter_tuning_sol_02.ipynb b/notebooks/parameter_tuning_sol_02.ipynb
@@ -41,21 +41,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_transformer\n",
     "from sklearn.compose import make_column_selector as selector\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "\n",
     "categorical_preprocessor = OrdinalEncoder(\n",
     "    handle_unknown=\"use_encoded_value\", unknown_value=-1\n",
     ")\n",
-    "preprocessor = ColumnTransformer(\n",
-    "    [\n",
-    "        (\n",
-    "            \"cat_preprocessor\",\n",
-    "            categorical_preprocessor,\n",
-    "            selector(dtype_include=object),\n",
-    "        )\n",
-    "    ],\n",
+    "preprocessor = make_column_transformer(\n",
+    "    (categorical_preprocessor, selector(dtype_include=object)),\n",
     "    remainder=\"passthrough\",\n",
     ")\n",
     "\n",
@@ -152,6 +146,13 @@
     "\n",
     "print(f\"Test score after the parameter tuning: {test_score:.3f}\")"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
diff --git a/python_scripts/03_categorical_pipeline_column_transformer.py b/python_scripts/03_categorical_pipeline_column_transformer.py
@@ -74,9 +74,10 @@
 #   categories.
 # * **numerical scaling** numerical features which will be standardized.
 #
-# Now, we create our `ColumnTransfomer` by specifying three values: the
-# preprocessor name, the transformer, and the columns. First, let's create the
-# preprocessors for the numerical and categorical parts.
+# Now, we create our `ColumnTransfomer` using the helper function
+# `make_column_transformer`. We specify two values: the transformer, and the
+# columns. First, let's create the preprocessors for the numerical and
+# categorical parts.
 
 # %%
 from sklearn.preprocessing import OneHotEncoder, StandardScaler
@@ -89,13 +90,11 @@
 # their respective columns.
 
 # %%
-from sklearn.compose import ColumnTransformer
+from sklearn.compose import make_column_transformer
 
-preprocessor = ColumnTransformer(
-    [
-        ("one-hot-encoder", categorical_preprocessor, categorical_columns),
-        ("standard_scaler", numerical_preprocessor, numerical_columns),
-    ]
+preprocessor = make_column_transformer(
+    (categorical_preprocessor, categorical_columns),
+    (numerical_preprocessor, numerical_columns),
 )
 
 # %% [markdown]
@@ -234,8 +233,8 @@
     handle_unknown="use_encoded_value", unknown_value=-1
 )
 
-preprocessor = ColumnTransformer(
-    [("categorical", categorical_preprocessor, categorical_columns)],
+preprocessor = make_column_transformer(
+    (categorical_preprocessor, categorical_columns),
     remainder="passthrough",
 )
 
diff --git a/python_scripts/03_categorical_pipeline_ex_02.py b/python_scripts/03_categorical_pipeline_ex_02.py
@@ -58,18 +58,19 @@
 
 from sklearn.model_selection import cross_validate
 from sklearn.pipeline import make_pipeline
-from sklearn.compose import ColumnTransformer
+from sklearn.compose import make_column_transformer
 from sklearn.preprocessing import OrdinalEncoder
 from sklearn.ensemble import HistGradientBoostingClassifier
 
 categorical_preprocessor = OrdinalEncoder(
     handle_unknown="use_encoded_value", unknown_value=-1
 )
-preprocessor = ColumnTransformer(
-    [("categorical", categorical_preprocessor, categorical_columns)],
+preprocessor = make_column_transformer(
+    (categorical_preprocessor, categorical_columns),
     remainder="passthrough",
 )
 
+
 model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
 
 start = time.time()
diff --git a/python_scripts/03_categorical_pipeline_sol_02.py b/python_scripts/03_categorical_pipeline_sol_02.py
@@ -52,18 +52,19 @@
 
 from sklearn.model_selection import cross_validate
 from sklearn.pipeline import make_pipeline
-from sklearn.compose import ColumnTransformer
+from sklearn.compose import make_column_transformer
 from sklearn.preprocessing import OrdinalEncoder
 from sklearn.ensemble import HistGradientBoostingClassifier
 
 categorical_preprocessor = OrdinalEncoder(
     handle_unknown="use_encoded_value", unknown_value=-1
 )
-preprocessor = ColumnTransformer(
-    [("categorical", categorical_preprocessor, categorical_columns)],
+preprocessor = make_column_transformer(
+    (categorical_preprocessor, categorical_columns),
     remainder="passthrough",
 )
 
+
 model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
 
 start = time.time()
@@ -90,17 +91,12 @@
 
 from sklearn.preprocessing import StandardScaler
 
-preprocessor = ColumnTransformer(
-    [
-        ("numerical", StandardScaler(), numerical_columns),
-        (
-            "categorical",
-            OrdinalEncoder(
-                handle_unknown="use_encoded_value", unknown_value=-1
-            ),
-            categorical_columns,
-        ),
-    ]
+preprocessor = make_column_transformer(
+    (StandardScaler(), numerical_columns),
+    (
+        OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1),
+        categorical_columns,
+    ),
 )
 
 model = make_pipeline(preprocessor, HistGradientBoostingClassifier())
@@ -151,8 +147,8 @@
 categorical_preprocessor = OneHotEncoder(
     handle_unknown="ignore", sparse_output=False
 )
-preprocessor = ColumnTransformer(
-    [("one-hot-encoder", categorical_preprocessor, categorical_columns)],
+preprocessor = make_column_transformer(
+    (categorical_preprocessor, categorical_columns),
     remainder="passthrough",
 )
 
diff --git a/python_scripts/parameter_tuning_ex_02.py b/python_scripts/parameter_tuning_ex_02.py
diff --git a/python_scripts/parameter_tuning_grid_search.py b/python_scripts/parameter_tuning_grid_search.py
diff --git a/python_scripts/parameter_tuning_nested.py b/python_scripts/parameter_tuning_nested.py
diff --git a/python_scripts/parameter_tuning_randomized_search.py b/python_scripts/parameter_tuning_randomized_search.py
diff --git a/python_scripts/parameter_tuning_sol_02.py b/python_scripts/parameter_tuning_sol_02.py