MAINT check and update examples

mfeurer · mfeurer · commit 822d33a3212b · 2016-10-17T10:21:23.000+02:00
diff --git a/example/example_crossvalidation.py b/example/example_crossvalidation.py
@@ -1,6 +1,7 @@
 # -*- encoding: utf-8 -*-
+import sklearn.cross_validation
 import sklearn.datasets
-import numpy as np
+import sklearn.metrics
 
 import autosklearn.classification
 
@@ -9,14 +10,9 @@ def main():
     digits = sklearn.datasets.load_digits()
     X = digits.data
     y = digits.target
-    indices = np.arange(X.shape[0])
-    np.random.shuffle(indices)
-    X = X[indices]
-    y = y[indices]
-    X_train = X[:1000]
-    y_train = y[:1000]
-    X_test = X[1000:]
-    y_test = y[1000:]
+    X_train, X_test, y_train, y_test = \
+        sklearn.cross_validation.train_test_split(X, y, random_state=1)
+
     automl = autosklearn.classification.AutoSklearnClassifier(
         time_left_for_this_task=120, per_run_time_limit=30,
         tmp_folder='/tmp/autoslearn_cv_example_tmp',
@@ -27,6 +23,9 @@ def main():
     # fit() changes the data in place, but refit needs the original data. We
     # therefore copy the data. In practice, one should reload the data
     automl.fit(X_train.copy(), y_train.copy(), dataset_name='digits')
+    # During fit(), models are fit on individual cross-validation folds. To use
+    # all available data, we call refit() which trains all models in the
+    # final ensemble on the whole dataset.
     automl.refit(X_train.copy(), y_train.copy())
 
     print(automl.show_models())
diff --git a/example/example_holdout.py b/example/example_holdout.py
@@ -1,6 +1,7 @@
 from operator import itemgetter
 
 import numpy as np
+import sklearn.cross_validation
 import sklearn.datasets
 import sklearn.metrics
 
@@ -24,14 +25,9 @@ def main():
     digits = sklearn.datasets.load_digits()
     X = digits.data
     y = digits.target
-    indices = np.arange(X.shape[0])
-    np.random.shuffle(indices)
-    X = X[indices]
-    y = y[indices]
-    X_train = X[:1000]
-    y_train = y[:1000]
-    X_test = X[1000:]
-    y_test = y[1000:]
+    X_train, X_test, y_train, y_test = \
+        sklearn.cross_validation.train_test_split(X, y, random_state=1)
+
     automl = autosklearn.classification.AutoSklearnClassifier(
         time_left_for_this_task=120, per_run_time_limit=30,
         tmp_folder='/tmp/autoslearn_holdout_example_tmp',
@@ -42,8 +38,11 @@ def main():
     # unreasonably bad (around 0.0) you should have a look into the logging
     # file to figure out the error
     report(automl.grid_scores_)
+    # Print the final ensemble constructed by auto-sklearn.
     print(automl.show_models())
     predictions = automl.predict(X_test)
+    # Print statistics about the auto-sklearn run such as number of
+    # iterations, number of models failed with a time out.
     print(automl.sprint_statistics())
     print("Accuracy score", sklearn.metrics.accuracy_score(y_test, predictions))
 
diff --git a/example/example_parallel.py b/example/example_parallel.py
@@ -1,23 +1,24 @@
 # -*- encoding: utf-8 -*-
 import multiprocessing
-import numpy as np
 import shutil
+
+import sklearn.cross_validation
 import sklearn.datasets
 import sklearn.metrics
+
 from autosklearn.classification import AutoSklearnClassifier
 from autosklearn.constants import *
 
 tmp_folder = '/tmp/autosklearn_parallel_example_tmp'
 output_folder = '/tmp/autosklearn_parallel_example_out'
 
-try:
-    shutil.rmtree(tmp_folder)
-except OSError as e:
-    pass
-try:
-    shutil.rmtree(output_folder)
-except OSError:
-    pass
+
+for dir in [tmp_folder, output_folder]:
+    try:
+        shutil.rmtree(dir)
+    except OSError as e:
+        pass
+
 
 def spawn_classifier(seed, dataset_name):
     """Spawn a subprocess.
@@ -59,14 +60,8 @@ def spawn_classifier(seed, dataset_name):
     digits = sklearn.datasets.load_digits()
     X = digits.data
     y = digits.target
-    indices = np.arange(X.shape[0])
-    np.random.shuffle(indices)
-    X = X[indices]
-    y = y[indices]
-    X_train = X[:1000]
-    y_train = y[:1000]
-    X_test = X[1000:]
-    y_test = y[1000:]
+    X_train, X_test, y_train, y_test = \
+        sklearn.cross_validation.train_test_split(X, y, random_state=1)
 
     processes = []
     for i in range(4): # set this at roughly half of your cores
diff --git a/example/example_regression.py b/example/example_regression.py
@@ -1,18 +1,18 @@
 # -*- encoding: utf-8 -*-
-import numpy as np
+import sklearn.cross_validation
 import sklearn.datasets
 import sklearn.metrics
-from sklearn.cross_validation import train_test_split
+
 import autosklearn.regression
 
 
 def main():
     boston = sklearn.datasets.load_boston()
     X = boston.data
     y = boston.target
-    indices = np.arange(X.shape[0])
-    np.random.shuffle(indices)
-    X_train, X_test, y_train, y_test = train_test_split(X, y)
+    X_train, X_test, y_train, y_test = \
+        sklearn.cross_validation.train_test_split(X, y, random_state=1)
+
     automl = autosklearn.regression.AutoSklearnRegressor(
         time_left_for_this_task=120, per_run_time_limit=30,
         tmp_folder='/tmp/autoslearn_regression_example_tmp',