Uses isinstance instead of issubclass in resampling strategy (#1160)

franchuterivera · web-flow · commit b2c5c3ce566f · 2021-07-01T10:22:08.000+02:00
* Move to isinstance

* Fixed unit test

* Fix unit test

* Simplify test

* no class name

* elif is better
diff --git a/autosklearn/automl.py b/autosklearn/automl.py
@@ -45,7 +45,7 @@
 )
 from autosklearn.evaluation import ExecuteTaFuncWithQueue, get_cost_of_crash
 from autosklearn.evaluation.abstract_evaluator import _fit_and_suppress_warnings
-from autosklearn.evaluation.train_evaluator import _fit_with_budget
+from autosklearn.evaluation.train_evaluator import TrainEvaluator, _fit_with_budget
 from autosklearn.metrics import calculate_metric
 from autosklearn.util.backend import Backend
 from autosklearn.util.stopwatch import StopWatch
@@ -164,32 +164,6 @@ def __init__(self,
         self._scoring_functions = scoring_functions if scoring_functions is not None else []
         self._resampling_strategy_arguments = resampling_strategy_arguments \
             if resampling_strategy_arguments is not None else {}
-        if self._resampling_strategy not in ['holdout',
-                                             'holdout-iterative-fit',
-                                             'cv',
-                                             'cv-iterative-fit',
-                                             'partial-cv',
-                                             'partial-cv-iterative-fit',
-                                             ] \
-           and not issubclass(self._resampling_strategy, BaseCrossValidator)\
-           and not issubclass(self._resampling_strategy, _RepeatedSplits)\
-           and not issubclass(self._resampling_strategy, BaseShuffleSplit):
-            raise ValueError('Illegal resampling strategy: %s' %
-                             self._resampling_strategy)
-
-        if self._resampling_strategy in ['partial-cv',
-                                         'partial-cv-iterative-fit',
-                                         ] \
-           and self._ensemble_size != 0:
-            raise ValueError("Resampling strategy %s cannot be used "
-                             "together with ensembles." % self._resampling_strategy)
-        if self._resampling_strategy in ['partial-cv',
-                                         'cv',
-                                         'cv-iterative-fit',
-                                         'partial-cv-iterative-fit',
-                                         ]\
-           and 'folds' not in self._resampling_strategy_arguments:
-            self._resampling_strategy_arguments['folds'] = 5
         self._n_jobs = n_jobs
         self._dask_client = dask_client
 
@@ -506,6 +480,15 @@ def fit(
             task=self._task,
         )
 
+        # Check the re-sampling strategy
+        try:
+            self._check_resampling_strategy(
+                X=X, y=y, task=task,
+            )
+        except Exception as e:
+            self._fit_cleanup()
+            raise e
+
         # Reset learnt stuff
         self.models_ = None
         self.cv_models_ = None
@@ -832,6 +815,63 @@ def _fit_cleanup(self):
         self._clean_logger()
         return
 
+    def _check_resampling_strategy(
+        self,
+        X: SUPPORTED_FEAT_TYPES,
+        y: SUPPORTED_TARGET_TYPES,
+        task: int,
+    ) -> None:
+        """
+        This method centralizes the checks for resampling strategies
+
+        Parameters
+        ----------
+        X: (SUPPORTED_FEAT_TYPES)
+            Input features for the given task
+        y: (SUPPORTED_TARGET_TYPES)
+            Input targets for the given task
+        task: (task)
+            Integer describing a supported task type, like BINARY_CLASSIFICATION
+        """
+        is_split_object = isinstance(
+            self._resampling_strategy,
+            (BaseCrossValidator, _RepeatedSplits, BaseShuffleSplit)
+        )
+
+        if self._resampling_strategy not in [
+                'holdout',
+                'holdout-iterative-fit',
+                'cv',
+                'cv-iterative-fit',
+                'partial-cv',
+                'partial-cv-iterative-fit',
+        ] and not is_split_object:
+            raise ValueError('Illegal resampling strategy: %s' % self._resampling_strategy)
+
+        elif is_split_object:
+            TrainEvaluator.check_splitter_resampling_strategy(
+                X=X, y=y, task=task,
+                groups=self._resampling_strategy_arguments.get('groups', None),
+                resampling_strategy=self._resampling_strategy,
+            )
+
+        elif self._resampling_strategy in [
+            'partial-cv',
+            'partial-cv-iterative-fit',
+        ] and self._ensemble_size != 0:
+            raise ValueError("Resampling strategy %s cannot be used "
+                             "together with ensembles." % self._resampling_strategy)
+
+        elif self._resampling_strategy in [
+            'partial-cv',
+            'cv',
+            'cv-iterative-fit',
+            'partial-cv-iterative-fit',
+        ] and 'folds' not in self._resampling_strategy_arguments:
+            self._resampling_strategy_arguments['folds'] = 5
+
+        return
+
     @staticmethod
     def subsample_if_too_large(
         X: SUPPORTED_FEAT_TYPES,
diff --git a/autosklearn/evaluation/__init__.py b/autosklearn/evaluation/__init__.py
@@ -139,13 +139,9 @@ def __init__(
             eval_function = autosklearn.evaluation.train_evaluator.eval_iterative_holdout
         elif resampling_strategy == 'cv-iterative-fit':
             eval_function = autosklearn.evaluation.train_evaluator.eval_iterative_cv
-        elif resampling_strategy == 'cv' or (
-             isinstance(resampling_strategy, type) and (
-                issubclass(resampling_strategy, BaseCrossValidator) or
-                issubclass(resampling_strategy, _RepeatedSplits) or
-                issubclass(resampling_strategy, BaseShuffleSplit)
-                )
-             ):
+        elif resampling_strategy == 'cv' or isinstance(resampling_strategy, (
+            BaseCrossValidator, _RepeatedSplits, BaseShuffleSplit)
+        ):
             eval_function = autosklearn.evaluation.train_evaluator.eval_cv
         elif resampling_strategy == 'partial-cv':
             eval_function = autosklearn.evaluation.train_evaluator.eval_partial_cv
diff --git a/autosklearn/evaluation/train_evaluator.py b/autosklearn/evaluation/train_evaluator.py
@@ -42,38 +42,6 @@
 __all__ = ['TrainEvaluator', 'eval_holdout', 'eval_iterative_holdout',
            'eval_cv', 'eval_partial_cv', 'eval_partial_cv_iterative']
 
-baseCrossValidator_defaults: Dict[str, Dict[str, Optional[Union[int, float, str]]]] = {
-    'GroupKFold': {'n_splits': 3},
-    'KFold': {'n_splits': 3,
-              'shuffle': False,
-              'random_state': None},
-    'LeaveOneGroupOut': {},
-    'LeavePGroupsOut': {'n_groups': 2},
-    'LeaveOneOut': {},
-    'LeavePOut': {'p': 2},
-    'PredefinedSplit': {},
-    'RepeatedKFold': {'n_splits': 5,
-                      'n_repeats': 10,
-                      'random_state': None},
-    'RepeatedStratifiedKFold': {'n_splits': 5,
-                                'n_repeats': 10,
-                                'random_state': None},
-    'StratifiedKFold': {'n_splits': 3,
-                        'shuffle': False,
-                        'random_state': None},
-    'TimeSeriesSplit': {'n_splits': 3,
-                        'max_train_size': None},
-    'GroupShuffleSplit': {'n_splits': 5,
-                          'test_size': None,
-                          'random_state': None},
-    'StratifiedShuffleSplit': {'n_splits': 10,
-                               'test_size': None,
-                               'random_state': None},
-    'ShuffleSplit': {'n_splits': 10,
-                     'test_size': None,
-                     'random_state': None}
-    }
-
 
 def _get_y_array(y: SUPPORTED_TARGET_TYPES, task_type: int) -> SUPPORTED_TARGET_TYPES:
     if task_type in CLASSIFICATION_TASKS and task_type != \
@@ -1027,69 +995,30 @@ def get_splitter(self, D: AbstractDataManager) -> Union[BaseCrossValidator, _Rep
         if self.resampling_strategy_args is None:
             self.resampling_strategy_args = {}
 
-        if self.resampling_strategy is not None and not isinstance(self.resampling_strategy, str):
-
-            if issubclass(self.resampling_strategy, BaseCrossValidator) or \
-               issubclass(self.resampling_strategy, _RepeatedSplits) or \
-               issubclass(self.resampling_strategy, BaseShuffleSplit):
-
-                class_name = self.resampling_strategy.__name__
-                if class_name not in baseCrossValidator_defaults:
-                    raise ValueError('Unknown CrossValidator.')
-                ref_arg_dict = baseCrossValidator_defaults[class_name]
-
-                y = D.data['Y_train']
-                if (D.info['task'] in CLASSIFICATION_TASKS and
-                   D.info['task'] != MULTILABEL_CLASSIFICATION) or \
-                   (D.info['task'] in REGRESSION_TASKS and
-                   D.info['task'] != MULTIOUTPUT_REGRESSION):
-
-                    y = y.ravel()
-                if class_name == 'PredefinedSplit':
-                    if 'test_fold' not in self.resampling_strategy_args:
-                        raise ValueError('Must provide parameter test_fold'
-                                         ' for class PredefinedSplit.')
-                if class_name == 'LeaveOneGroupOut' or \
-                        class_name == 'LeavePGroupsOut' or\
-                        class_name == 'GroupKFold' or\
-                        class_name == 'GroupShuffleSplit':
-                    if 'groups' not in self.resampling_strategy_args:
-                        raise ValueError('Must provide parameter groups '
-                                         'for chosen CrossValidator.')
-                    try:
-                        if np.shape(self.resampling_strategy_args['groups'])[0] != y.shape[0]:
-                            raise ValueError('Groups must be array-like '
-                                             'with shape (n_samples,).')
-                    except Exception:
-                        raise ValueError('Groups must be array-like '
-                                         'with shape (n_samples,).')
-                else:
-                    if 'groups' in self.resampling_strategy_args:
-                        if np.shape(self.resampling_strategy_args['groups'])[0] != y.shape[0]:
-                            raise ValueError('Groups must be array-like'
-                                             ' with shape (n_samples,).')
-
-                # Put args in self.resampling_strategy_args
-                for key in ref_arg_dict:
-                    if key == 'n_splits':
-                        if 'folds' not in self.resampling_strategy_args:
-                            self.resampling_strategy_args['folds'] = ref_arg_dict['n_splits']
-                    else:
-                        if key not in self.resampling_strategy_args:
-                            self.resampling_strategy_args[key] = ref_arg_dict[key]
-
-                # Instantiate object with args
-                init_dict = copy.deepcopy(self.resampling_strategy_args)
-                init_dict.pop('groups', None)
-                if 'folds' in init_dict:
-                    init_dict['n_splits'] = init_dict.pop('folds', None)
-                assert self.resampling_strategy is not None
-                cv = copy.deepcopy(self.resampling_strategy)(**init_dict)
-
-                if 'groups' not in self.resampling_strategy_args:
-                    self.resampling_strategy_args['groups'] = None
+        if (
+                self.resampling_strategy is not None
+                and not isinstance(self.resampling_strategy, str)
+        ):
+            if 'groups' not in self.resampling_strategy_args:
+                self.resampling_strategy_args['groups'] = None
+
+            if isinstance(self.resampling_strategy, (BaseCrossValidator,
+                                                     _RepeatedSplits,
+                                                     BaseShuffleSplit)):
+                self.check_splitter_resampling_strategy(
+                    X=D.data['X_train'], y=D.data['Y_train'],
+                    groups=self.resampling_strategy_args.get('groups'),
+                    task=D.info['task'],
+                    resampling_strategy=self.resampling_strategy,
+                )
+                return self.resampling_strategy
 
-                return cv
+            # If it got to this point, we are dealing with a non-supported
+            # re-sampling strategy
+            raise ValueError("Unsupported resampling strategy {}/{} provided".format(
+                self.resampling_strategy,
+                type(self.resampling_strategy),
+            ))
 
         y = D.data['Y_train']
         shuffle = self.resampling_strategy_args.get('shuffle', True)
@@ -1161,6 +1090,37 @@ def get_splitter(self, D: AbstractDataManager) -> Union[BaseCrossValidator, _Rep
                 raise ValueError(self.resampling_strategy)
         return cv
 
+    @classmethod
+    def check_splitter_resampling_strategy(
+        cls,
+        X: PIPELINE_DATA_DTYPE,
+        y: np.ndarray,
+        task: int,
+        groups: Any,
+        resampling_strategy: Union[BaseCrossValidator, _RepeatedSplits,
+                                   BaseShuffleSplit],
+    ) -> None:
+        if (
+            task in CLASSIFICATION_TASKS
+            and task != MULTILABEL_CLASSIFICATION
+            or (
+                task in REGRESSION_TASKS
+                and task != MULTIOUTPUT_REGRESSION
+            )
+        ):
+            y = y.ravel()
+
+        try:
+            resampling_strategy.get_n_splits(X=X, y=y, groups=groups)
+            next(resampling_strategy.split(X=X, y=y, groups=groups))
+        except Exception as e:
+            raise ValueError("Unsupported resampling strategy "
+                             "{}/{} cause exception: {}".format(
+                                 resampling_strategy,
+                                 groups,
+                                 str(e),
+                             ))
+
 
 # create closure for evaluating an algorithm
 def eval_holdout(
diff --git a/examples/40_advanced/example_resampling.py b/examples/40_advanced/example_resampling.py
@@ -98,16 +98,15 @@
 # data by the first feature. In practice, one would use a splitting according
 # to the use case at hand.
 
-resampling_strategy = sklearn.model_selection.PredefinedSplit
-resampling_strategy_arguments = {'test_fold': np.where(X_train[:, 0] < np.mean(X_train[:, 0]))[0]}
+resampling_strategy = sklearn.model_selection.PredefinedSplit(
+    test_fold=np.where(X_train[:, 0] < np.mean(X_train[:, 0]))[0])
 
 automl = autosklearn.classification.AutoSklearnClassifier(
     time_left_for_this_task=120,
     per_run_time_limit=30,
     tmp_folder='/tmp/autosklearn_resampling_example_tmp',
     disable_evaluator_output=False,
     resampling_strategy=resampling_strategy,
-    resampling_strategy_arguments=resampling_strategy_arguments,
 )
 automl.fit(X_train, y_train, dataset_name='breast_cancer')
 
diff --git a/test/test_evaluation/test_train_evaluator.py b/test/test_evaluation/test_train_evaluator.py