Merge pull request #510 from ahn1340/extend

ahn1340 · web-flow · commit 278f88a27353 · 2018-10-25T16:58:03.000+02:00
Example extending auto-sklearn
diff --git a/examples/example_extending_classification.py b/examples/example_extending_classification.py
@@ -0,0 +1,133 @@
+"""
+====================================================================
+Extending Auto-Sklearn with Classification Component
+====================================================================
+
+The following example demonstrates how to create a new classification
+component for using in auto-sklearn.
+"""
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+from ConfigSpace.hyperparameters import CategoricalHyperparameter, \
+    UniformIntegerHyperparameter, UniformFloatHyperparameter
+
+import sklearn.metrics
+import autosklearn.classification
+import autosklearn.pipeline.components.classification
+from autosklearn.pipeline.components.base \
+    import AutoSklearnClassificationAlgorithm
+from autosklearn.pipeline.constants import DENSE, SIGNED_DATA, UNSIGNED_DATA, \
+    PREDICTIONS
+
+
+# Create MLP classifier component for auto-sklearn.
+class MLPClassifier(AutoSklearnClassificationAlgorithm):
+    def __init__(self,
+                 hidden_layer_depth,
+                 num_nodes_per_layer,
+                 activation,
+                 alpha,
+                 solver,
+                 random_state=None,
+                 ):
+        self.hidden_layer_depth = hidden_layer_depth
+        self.num_nodes_per_layer = num_nodes_per_layer
+        self.activation = activation
+        self.alpha = alpha
+        self.solver = solver
+        self.random_state = random_state
+
+    def fit(self, X, y):
+        self.num_nodes_per_layer = int(self.num_nodes_per_layer)
+        self.hidden_layer_depth = int(self.hidden_layer_depth)
+        self.alpha = float(self.alpha)
+
+        from sklearn.neural_network import MLPClassifier
+        hidden_layer_sizes = tuple(self.num_nodes_per_layer \
+                                   for i in range(self.hidden_layer_depth))
+
+        self.estimator = MLPClassifier(hidden_layer_sizes=hidden_layer_sizes,
+                                       activation=self.activation,
+                                       alpha=self.alpha,
+                                       solver=self.solver,
+                                       random_state=self.random_state,
+                                       )
+        self.estimator.fit(X, y)
+        return self
+
+    def predict(self, X):
+        if self.estimator is None:
+            raise NotImplementedError()
+        return self.estimator.predict(X)
+
+    def predict_proba(self, X):
+        if self.estimator is None:
+            raise NotImplementedError()
+        return self.estimator.predict_proba(X)
+
+    @staticmethod
+    def get_properties(dataset_properties=None):
+        return {'shortname':'MLP Classifier',
+                'name': 'MLP CLassifier',
+                'handles_regression': False,
+                'handles_classification': True,
+                'handles_multiclass': True,
+                'handles_multilabel': False,
+                'is_deterministic': False,
+                # Both input and output must be tuple(iterable)
+                'input': [DENSE, SIGNED_DATA, UNSIGNED_DATA],
+                'output': [PREDICTIONS]
+                }
+
+    @staticmethod
+    def get_hyperparameter_search_space(dataset_properties=None):
+        cs = ConfigurationSpace()
+        hidden_layer_depth = UniformIntegerHyperparameter(
+            name="hidden_layer_depth", lower=1, upper=3, default_value=1
+        )
+        num_nodes_per_layer = UniformIntegerHyperparameter(
+            name="num_nodes_per_layer", lower=16, upper=216, default_value=32
+        )
+        activation = CategoricalHyperparameter(
+            name="activation", choices=['identity', 'logistic', 'tanh', 'relu'],
+            default_value='relu'
+        )
+        alpha = UniformFloatHyperparameter(
+            name="alpha", lower=0.0001, upper=1.0, default_value=0.0001
+        )
+        solver = CategoricalHyperparameter(
+            name="solver", choices=['lbfgs', 'sgd', 'adam'], default_value='adam'
+        )
+        cs.add_hyperparameters([hidden_layer_depth,
+                                num_nodes_per_layer,
+                                activation,
+                                alpha,
+                                solver,
+                                ])
+        return cs
+
+
+# Add MLP classifier component to auto-sklearn.
+autosklearn.pipeline.components.classification.add_classifier(MLPClassifier)
+cs = MLPClassifier.get_hyperparameter_search_space()
+print(cs)
+
+# Generate data.
+from sklearn.datasets import load_breast_cancer
+from sklearn.model_selection import train_test_split
+X, y = load_breast_cancer(return_X_y=True)
+X_train, X_test, y_train, y_test = train_test_split(X, y)
+
+# Fit MLP classifier to the data.
+clf = autosklearn.classification.AutoSklearnClassifier(
+    time_left_for_this_task=20,
+    per_run_time_limit=10,
+    include_estimators=['MLPClassifier'],
+)
+clf.fit(X_train, y_train)
+
+# Print test accuracy and statistics.
+y_pred = clf.predict(X_test)
+print("accuracy: ", sklearn.metrics.accuracy_score(y_pred, y_test))
+print(clf.sprint_statistics())
+print(clf.show_models())
diff --git a/examples/example_extending_preprocessor.py b/examples/example_extending_preprocessor.py
@@ -0,0 +1,111 @@
+"""
+====================================================================
+Extending Auto-Sklearn with Preprocessor Component
+====================================================================
+
+The following example demonstrates how to create a wrapper around the linear
+discriminant analysis (LDA) algorithm from sklearn and use it as a preprocessor
+in auto-sklearn.
+"""
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+from ConfigSpace.hyperparameters import UniformFloatHyperparameter, \
+    UniformIntegerHyperparameter, CategoricalHyperparameter
+
+import sklearn.metrics
+import autosklearn.classification
+import autosklearn.metrics
+import autosklearn.pipeline.components.feature_preprocessing
+from autosklearn.pipeline.components.base \
+    import AutoSklearnPreprocessingAlgorithm
+from autosklearn.pipeline.constants import DENSE, SIGNED_DATA, \
+    UNSIGNED_DATA
+
+
+# Create LDA component for auto-sklearn.
+class LDA(AutoSklearnPreprocessingAlgorithm):
+    def __init__(self, shrinkage, solver, n_components, tol, random_state=None):
+        self.solver = solver
+        self.shrinkage = shrinkage
+        self.n_components = n_components
+        self.tol = tol
+        self.random_state = random_state
+        self.preprocessor = None
+
+    def fit(self, X, y=None):
+        self.shrinkage = float(self.shrinkage)
+        self.n_components = int(self.n_components)
+        self.tol = float(self.tol)
+
+        import sklearn.discriminant_analysis
+        self.preprocessor = \
+            sklearn.discriminant_analysis.LinearDiscriminantAnalysis(
+                shrinkage=self.shrinkage,
+                solver=self.solver,
+                n_components=self.n_components,
+                tol=self.tol,
+            )
+        self.preprocessor.fit(X, y)
+        return self
+
+    def transform(self, X):
+        if self.preprocessor is None:
+            raise NotImplementedError()
+        return self.preprocessor.transform(X)
+
+    @staticmethod
+    def get_properties(dataset_properties=None):
+        return {'shortname': 'LDA',
+                'name': 'Linear Discriminant Analysis',
+                'handles_regression': False,
+                'handles_classification': True,
+                'handles_multiclass': False,
+                'handles_multilabel': False,
+                'is_deterministic': True,
+                'input': (DENSE, UNSIGNED_DATA, SIGNED_DATA),
+                'output': (DENSE, UNSIGNED_DATA, SIGNED_DATA)}
+
+    @staticmethod
+    def get_hyperparameter_search_space(dataset_properties=None):
+        cs = ConfigurationSpace()
+        solver = CategoricalHyperparameter(
+            name="solver", choices=['svd','lsqr','eigen'], default_value='svd'
+        )
+        shrinkage = UniformFloatHyperparameter(
+            name="shrinkage", lower=0.0, upper=1.0, default_value=0.5
+        )
+        n_components = UniformIntegerHyperparameter(
+            name="n_components", lower=1, upper=29, default_value=10
+        )
+        tol = UniformFloatHyperparameter(
+            name="tol", lower=0.0001, upper=1, default_value=0.0001
+        )
+        cs.add_hyperparameters([solver, shrinkage, n_components, tol])
+        return cs
+
+
+# Add LDA component to auto-sklearn.
+autosklearn.pipeline.components.feature_preprocessing.add_preprocessor(LDA)
+
+# Create dataset.
+from sklearn.datasets import load_breast_cancer
+from sklearn.model_selection import train_test_split
+X, y = load_breast_cancer(return_X_y=True)
+X_train, X_test, y_train, y_test = train_test_split(X, y)
+
+# Configuration space.
+cs = LDA.get_hyperparameter_search_space()
+print(cs)
+
+# Fit the model using LDA as preprocessor.
+clf = autosklearn.classification.AutoSklearnClassifier(
+    time_left_for_this_task=30,
+    include_preprocessors=['LDA'],
+)
+clf.fit(X_train, y_train)
+
+# Print prediction score and statistics.
+y_pred = clf.predict(X_test)
+print("accracy: ", sklearn.metrics.accuracy_score(y_pred, y_test))
+print(clf.sprint_statistics())
+print(clf.show_models())
diff --git a/examples/example_extending_regression.py b/examples/example_extending_regression.py
@@ -0,0 +1,110 @@
+"""
+====================================================================
+Extending Auto-Sklearn with Regression Component
+====================================================================
+
+The following example demonstrates how to create a new regression
+component for using in auto-sklearn.
+"""
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+from ConfigSpace.hyperparameters import UniformFloatHyperparameter, \
+    UniformIntegerHyperparameter, CategoricalHyperparameter
+
+import sklearn.metrics
+import autosklearn.regression
+import autosklearn.pipeline.components.regression
+from autosklearn.pipeline.components.base import AutoSklearnRegressionAlgorithm
+from autosklearn.pipeline.constants import SPARSE, DENSE, \
+    SIGNED_DATA, UNSIGNED_DATA, PREDICTIONS
+
+
+# Implement kernel ridge regression component for auto-sklearn.
+class KernelRidgeRegression(AutoSklearnRegressionAlgorithm):
+    def __init__(self, alpha, kernel, gamma, degree, random_state=None):
+        self.alpha = alpha
+        self.kernel = kernel
+        self.gamma = gamma
+        self.degree = degree
+        self.random_state = random_state
+        self.estimator = None
+
+    def fit(self, X, y):
+        self.alpha = float(self.alpha)
+        self.gamma = float(self.gamma)
+        self.degree = int(self.degree)
+
+        import sklearn.kernel_ridge
+        self.estimator = sklearn.kernel_ridge.KernelRidge(alpha=self.alpha,
+                                                          kernel=self.kernel,
+                                                          gamma=self.gamma,
+                                                          degree=self.degree,
+                                                          )
+        self.estimator.fit(X, y)
+        return self
+
+    def predict(self, X):
+        if self.estimator is None:
+            raise NotImplementedError
+        return self.estimator.predict(X)
+
+    @staticmethod
+    def get_properties(dataset_properties=None):
+        return {'shortname': 'KRR',
+                'name': 'Kernel Ridge Regression',
+                'handles_regression': True,
+                'handles_classification': False,
+                'handles_multiclass': False,
+                'handles_multilabel': False,
+                'is_deterministic': True,
+                'input': (SPARSE, DENSE, UNSIGNED_DATA, SIGNED_DATA),
+                'output': (PREDICTIONS,)}
+
+    @staticmethod
+    def get_hyperparameter_search_space(dataset_properties=None):
+        cs = ConfigurationSpace()
+        alpha = UniformFloatHyperparameter(
+            name='alpha', lower=10 ** -5, upper=1, log=True, default_value=0.1)
+        kernel = CategoricalHyperparameter(
+            name='kernel',
+            choices=['linear',
+                     'rbf',
+                     'sigmoid',
+                     'polynomial',
+                     ],
+            default_value='linear'
+        )
+        gamma = UniformFloatHyperparameter(
+            name='gamma', lower=0.00001, upper=1, default_value=0.1, log=True
+        )
+        degree = UniformIntegerHyperparameter(
+            name='degree', lower=2, upper=5, default_value=3
+        )
+        cs.add_hyperparameters([alpha, kernel, gamma, degree])
+        return cs
+
+
+# Add KRR component to auto-sklearn.
+autosklearn.pipeline.components.regression.add_regressor(KernelRidgeRegression)
+cs = KernelRidgeRegression.get_hyperparameter_search_space()
+print(cs)
+
+# Generate data.
+from sklearn.datasets import load_diabetes
+from sklearn.model_selection import train_test_split
+X, y = load_diabetes(return_X_y=True)
+X_train, X_test, y_train, y_test = train_test_split(X, y)
+
+# Fit the model using KRR.
+reg = autosklearn.regression.AutoSklearnRegressor(
+    time_left_for_this_task=30,
+    per_run_time_limit=10,
+    include_estimators=['KernelRidgeRegression'],
+)
+reg.fit(X_train, y_train)
+
+# Print prediction score and statistics.
+y_pred = reg.predict(X_test)
+print("r2 score: ", sklearn.metrics.r2_score(y_pred, y_test))
+print(reg.sprint_statistics())
+print(reg.show_models())