Add display_name logic

Innixma · Innixma · commit 9cb010601d24 · 2026-01-27T01:53:54.000Z
diff --git a/tabarena/tabarena/nips2025_utils/artifacts/method_metadata.py b/tabarena/tabarena/nips2025_utils/artifacts/method_metadata.py
@@ -35,6 +35,7 @@ def __init__(
         artifact_name: str = None,
         date: str | None = None,
         method_type: Literal["config", "baseline", "portfolio"] = "config",
+        display_name: str | None = None,
         name: str | None = None,
         name_suffix: str | None = None,
         ag_key: str | None = None,
@@ -64,6 +65,7 @@ def __init__(
             model_key = ag_key
         self.model_key = model_key
         self.name = name
+        self.display_name = display_name
         self.name_suffix = name_suffix
         self.config_default = config_default
         self.compute = compute
@@ -90,6 +92,15 @@ def __init__(
             raise AssertionError(f"Must only specify one of `name` and `name_suffix`.")
         self.reference_url = reference_url
 
+    def get_display_name(self) -> str:
+        if self.display_name is not None:
+            return self.display_name
+        if self.name is not None:
+            return self.name
+        if self.config_type is not None:
+            return self.config_type
+        return self.method
+
     @property
     def config_type(self) -> str | None:
         if self.method_type != "config":
diff --git a/tabarena/tabarena/nips2025_utils/compare.py b/tabarena/tabarena/nips2025_utils/compare.py
@@ -24,6 +24,7 @@ def compare_on_tabarena(
     remove_imputed: bool = False,
     tmp_treat_tasks_independently: bool = False,
     leaderboard_kwargs: dict | None = None,
+    **kwargs,
 ) -> pd.DataFrame:
     output_dir = Path(output_dir)
     if tabarena_context is None:
@@ -32,6 +33,22 @@ def compare_on_tabarena(
         tabarena_context = TabArenaContext(**tabarena_context_kwargs)
     task_metadata = tabarena_context.task_metadata
 
+    # TODO: only methods that exist in runs
+    #  Pair with (method, artifact_name)
+    method_rename_map = dict()
+    method_metadatas = tabarena_context.method_metadata_collection.method_metadata_lst
+    for m in method_metadatas:
+        if m.method_type == "config":
+            display_name = m.get_display_name()
+            if display_name is not None:
+                if m.config_type in method_rename_map:
+                    print(
+                        f"WARNING: Multiple display_name values detected for the same config_type={m.config_type!r}"
+                        f"\n\tdisplay_name 1: {method_rename_map[m.config_type]!r}"
+                        f"\n\tdisplay_name 2: {display_name!r}"
+                    )
+                method_rename_map[m.config_type] = display_name
+
     paper_results = tabarena_context.load_results_paper(
         download_results="auto",
     )
@@ -46,7 +63,7 @@ def compare_on_tabarena(
     else:
         df_results = paper_results
 
-    kwargs = {}
+    kwargs = kwargs.copy()
     if isinstance(only_valid_tasks, (str, list)):
         kwargs["only_valid_tasks"] = only_valid_tasks
     elif only_valid_tasks and new_results is not None:
@@ -73,6 +90,7 @@ def compare_on_tabarena(
         remove_imputed=remove_imputed,
         tmp_treat_tasks_independently=tmp_treat_tasks_independently,
         leaderboard_kwargs=leaderboard_kwargs,
+        method_rename_map=method_rename_map,
         **kwargs,
     )
 
@@ -89,6 +107,8 @@ def compare(
     tmp_treat_tasks_independently: bool = False,  # FIXME: Update
     leaderboard_kwargs: dict | None = None,
     remove_imputed: bool = False,
+    method_rename_map: dict | None = None,
+    **kwargs,
 ):
     df_results = prepare_data(
         df_results=df_results,
@@ -109,6 +129,7 @@ def compare(
         output_dir=output_dir,
         task_metadata=task_metadata,
         error_col=error_col,
+        method_rename_map=method_rename_map,
     )
 
     return plotter.eval(
@@ -121,6 +142,7 @@ def compare(
         average_seeds=average_seeds,
         tmp_treat_tasks_independently=tmp_treat_tasks_independently,
         leaderboard_kwargs=leaderboard_kwargs,
+        **kwargs,
     )
 
 
diff --git a/tabarena/tabarena/nips2025_utils/tabarena_context.py b/tabarena/tabarena/nips2025_utils/tabarena_context.py
@@ -117,6 +117,7 @@ def compare(
         remove_imputed: bool = False,
         tmp_treat_tasks_independently: bool = False,
         leaderboard_kwargs: dict | None = None,
+        **kwargs,
     ) -> pd.DataFrame:
         from tabarena.nips2025_utils.compare import compare_on_tabarena
         return compare_on_tabarena(
@@ -132,6 +133,7 @@ def compare(
             remove_imputed=remove_imputed,
             tmp_treat_tasks_independently=tmp_treat_tasks_independently,
             leaderboard_kwargs=leaderboard_kwargs,
+            **kwargs,
         )
 
     @property
diff --git a/tabarena/tabarena/paper/tabarena_evaluator.py b/tabarena/tabarena/paper/tabarena_evaluator.py
@@ -55,6 +55,7 @@ def __init__(
         folds: list[int] | None = None,
         datasets: list[str] | None = None,
         problem_types: list[str] | None = None,
+        method_rename_map: dict[str, str] | None = None,
         banned_model_types: list[str] | None = None,
         banned_pareto_methods: list[str] | None = None,
         elo_bootstrap_rounds: int = 200,
@@ -85,13 +86,16 @@ def __init__(
             task_metadata = load_task_metadata()
         if banned_pareto_methods is None:
             banned_pareto_methods = []
+        if method_rename_map is None:
+            method_rename_map = {}
         self.output_dir: Path = Path(output_dir)
         self.task_metadata = task_metadata
         self.method_col = method_col
         self.error_col = error_col
         self.config_types = config_types
         self.figure_file_type = figure_file_type
         self.banned_pareto_methods = banned_pareto_methods
+        self._method_rename_map = method_rename_map
 
         self.datasets = datasets
         self.problem_types = problem_types
@@ -825,7 +829,9 @@ def plot_pareto_improvability_vs_time_train(self, leaderboard: pd.DataFrame):
         )
 
     def get_method_rename_map(self) -> dict[str, str]:
-        return get_method_rename_map()  # FIXME: Avoid hardcoding
+        method_rename_map = get_method_rename_map()  # FIXME: Avoid hardcoding
+        method_rename_map.update(self._method_rename_map)
+        return method_rename_map
 
     def plot_portfolio_ensemble_weights_barplot(self, df_ensemble_weights: pd.DataFrame):
         import seaborn as sns