Fix compatibility with the latest pandas and sklearn

lixfz · lixfz · commit 540d0531d52b · 2025-04-12T19:09:01.000+08:00
diff --git a/hypernets/experiment/compete.py b/hypernets/experiment/compete.py
@@ -680,7 +680,7 @@ def __getattribute__(self, item):
             if item in transformer_kwargs.keys():
                 return transformer_kwargs[item]
             else:
-                raise e
+                raise
 
     def __dir__(self):
         transformer_kwargs = self.transformer_kwargs
@@ -1579,7 +1579,7 @@ def train(self, hyper_model, X_train, y_train, X_test, X_eval=None, y_eval=None,
                     if step.status_ == ExperimentStep.STATUS_RUNNING:
                         step.status_ = ExperimentStep.STATUS_FAILED
                     self.step_break(error=e)
-                    raise e
+                    raise
                 finally:
                     step.done_time = time.time()
             elif not step.is_transform_skipped():
diff --git a/hypernets/tabular/dask_ex/_transformers.py b/hypernets/tabular/dask_ex/_transformers.py
@@ -85,19 +85,19 @@
 class SafeOneHotEncoder(dm_pre.OneHotEncoder):
     def fit(self, X, y=None):
         if isinstance(X, (dd.DataFrame, pd.DataFrame)) and self.categories == "auto" \
-                and any(d.name in {'object', 'bool'} for d in X.dtypes):
+                and any(d.name in {'object', 'string', 'bool'} for d in X.dtypes):
             a = []
             if isinstance(X, dd.DataFrame):
                 for i in range(len(X.columns)):
                     Xi = X.iloc[:, i]
-                    if Xi.dtype.name in {'object', 'bool'}:
+                    if Xi.dtype.name in {'object', 'string', 'bool'}:
                         Xi = Xi.astype('category').cat.as_known()
                     a.append(Xi)
                 X = dd.concat(a, axis=1, ignore_unknown_divisions=True)
             else:
                 for i in range(len(X.columns)):
                     Xi = X.iloc[:, i]
-                    if Xi.dtype.name in {'object', 'bool'}:
+                    if Xi.dtype.name in {'object', 'string', 'bool'}:
                         Xi = Xi.astype('category')
                     a.append(Xi)
                 X = pd.concat(a, axis=1)
diff --git a/hypernets/tabular/drift_detection.py b/hypernets/tabular/drift_detection.py
@@ -9,16 +9,21 @@
 
 import numpy as np
 from joblib import Parallel, delayed
+import sklearn
 from sklearn import model_selection as sksel
 from sklearn.metrics import roc_auc_score, matthews_corrcoef, make_scorer
 
 from hypernets.core import randint
-from hypernets.utils import logging, const
+from hypernets.utils import logging, const, Version
 from .cfg import TabularCfg as cfg
 
 logger = logging.getLogger(__name__)
 
-roc_auc_scorer = make_scorer(roc_auc_score, greater_is_better=True, needs_threshold=True)
+if Version(sklearn.__version__) >= Version('1.4.0'):
+    roc_auc_scorer = make_scorer(roc_auc_score, greater_is_better=True,
+                                 response_method=("decision_function", "predict_proba"))
+else:
+    roc_auc_scorer = make_scorer(roc_auc_score, greater_is_better=True, needs_threshold=True)
 matthews_corrcoef_scorer = make_scorer(matthews_corrcoef)
 
 
diff --git a/hypernets/utils/df_utils.py b/hypernets/utils/df_utils.py
@@ -6,7 +6,7 @@
 
 def get_data_character(hyper_model, X_train, y_train, X_eval=None, y_eval=None, X_test=None, task=None):
 
-	dtype2usagetype = {'object':'str', 'int64':'int', 'float64':'float', 'datetime64[ns]':'date', 'timedelta64[ns]':'date'}
+	dtype2usagetype = {'object':'str', 'string':'str', 'int64':'int', 'float64':'float', 'datetime64[ns]':'date', 'timedelta64[ns]':'date'}
 	
 	task, _ = hyper_model.infer_task_type(y_train) #This line is just used to test