IntelPython
diff --git a/‎Makefile
Lines changed: 31 additions & 33 deletions b/‎Makefile
Lines changed: 31 additions & 33 deletions
diff --git a/‎README.md
Lines changed: 8 additions & 1 deletion b/‎README.md
Lines changed: 8 additions & 1 deletion
diff --git a/‎config_example.json
Lines changed: 213 additions & 0 deletions b/‎config_example.json
Lines changed: 213 additions & 0 deletions
@@ -119,23 +119,22 @@ ARGS_SKLEARN_ridge = 	--size "$(REGRESSION_SIZE)"
 ARGS_SKLEARN_linear = 	--size "$(REGRESSION_SIZE)"
 ARGS_SKLEARN_pca_daal = --size "$(REGRESSION_SIZE)" --svd-solver daal
 ARGS_SKLEARN_pca_full = --size "$(REGRESSION_SIZE)" --svd-solver full
-ARGS_SKLEARN_kmeans = 	--data-multiplier "$(MULTIPLIER)" \
-			--filex data/clustering/kmeans_$(KMEANS_SIZE).npy \
-			--filei data/clustering/kmeans_$(KMEANS_SIZE).init.npy
-ARGS_SKLEARN_svm2 =	--fileX data/two/X-$(SVM_SIZE).npy \
-			--fileY data/two/y-$(SVM_SIZE).npy
-ARGS_SKLEARN_svm5 = 	--fileX data/multi/X-$(SVM_SIZE).npy \
-			--fileY data/multi/y-$(SVM_SIZE).npy
-ARGS_SKLEARN_logreg2 =	--fileX data/two/X-$(LOGREG_SIZE).npy \
-			--fileY data/two/y-$(LOGREG_SIZE).npy
-ARGS_SKLEARN_logreg5 =	--fileX data/multi/X-$(LOGREG_SIZE).npy \
-			--fileY data/multi/y-$(LOGREG_SIZE).npy
-ARGS_SKLEARN_dfclf2 = 	--fileX data/two/X-$(DFCLF_SIZE).npy \
-			--fileY data/two/y-$(DFCLF_SIZE).npy
-ARGS_SKLEARN_dfclf5 = 	--fileX data/multi/X-$(DFCLF_SIZE).npy \
-			--fileY data/multi/y-$(DFCLF_SIZE).npy
-ARGS_SKLEARN_dfreg = 	--fileX data/reg/X-$(DFREG_SIZE).npy \
-			--fileY data/reg/y-$(DFREG_SIZE).npy
+ARGS_SKLEARN_kmeans = 	--file-X-train data/clustering/kmeans_$(KMEANS_SIZE).npy \
+						--filei data/clustering/kmeans_$(KMEANS_SIZE).init.npy
+ARGS_SKLEARN_svm2 =		--file-X-train data/two/X-$(SVM_SIZE).npy \
+						--file-y-train data/two/y-$(SVM_SIZE).npy
+ARGS_SKLEARN_svm5 = 	--file-X-train data/multi/X-$(SVM_SIZE).npy \
+						--file-y-train data/multi/y-$(SVM_SIZE).npy
+ARGS_SKLEARN_logreg2 = 	--file-X-train data/two/X-$(LOGREG_SIZE).npy \
+						--file-y-train data/two/y-$(LOGREG_SIZE).npy
+ARGS_SKLEARN_logreg5 = 	--file-X-train data/multi/X-$(LOGREG_SIZE).npy \
+						--file-y-train data/multi/y-$(LOGREG_SIZE).npy
+ARGS_SKLEARN_dfclf2 = 	--file-X-train data/two/X-$(DFCLF_SIZE).npy \
+						--file-y-train data/two/y-$(DFCLF_SIZE).npy
+ARGS_SKLEARN_dfclf5 = 	--file-X-train data/multi/X-$(DFCLF_SIZE).npy \
+						--file-y-train data/multi/y-$(DFCLF_SIZE).npy
+ARGS_SKLEARN_dfreg = 	--file-X-train data/reg/X-$(DFREG_SIZE).npy \
+						--file-y-train data/reg/y-$(DFREG_SIZE).npy
 
 DAAL4PY_distances = distances
 DAAL4PY_ridge = ridge
@@ -156,23 +155,22 @@ ARGS_DAAL4PY_ridge = 	--size "$(REGRESSION_SIZE)"
 ARGS_DAAL4PY_linear = 	--size "$(REGRESSION_SIZE)"
 ARGS_DAAL4PY_pca_daal = --size "$(REGRESSION_SIZE)" --svd-solver daal
 ARGS_DAAL4PY_pca_full = --size "$(REGRESSION_SIZE)" --svd-solver full
-ARGS_DAAL4PY_kmeans = 	--data-multiplier "$(MULTIPLIER)" \
-			--filex data/clustering/kmeans_$(KMEANS_SIZE).npy \
+ARGS_DAAL4PY_kmeans = 	--file-X-train data/clustering/kmeans_$(KMEANS_SIZE).npy \
 			--filei data/clustering/kmeans_$(KMEANS_SIZE).init.npy
-ARGS_DAAL4PY_svm2 =	--fileX data/two/X-$(SVM_SIZE).npy \
-			--fileY data/two/y-$(SVM_SIZE).npy
-ARGS_DAAL4PY_svm5 = 	--fileX data/multi/X-$(SVM_SIZE).npy \
-			--fileY data/multi/y-$(SVM_SIZE).npy
-ARGS_DAAL4PY_logreg2 =	--fileX data/two/X-$(LOGREG_SIZE).npy \
-			--fileY data/two/y-$(LOGREG_SIZE).npy
-ARGS_DAAL4PY_logreg5 =	--fileX data/multi/X-$(LOGREG_SIZE).npy \
-			--fileY data/multi/y-$(LOGREG_SIZE).npy
-ARGS_DAAL4PY_dfclf2 = 	--fileX data/two/X-$(DFCLF_SIZE).npy \
-			--fileY data/two/y-$(DFCLF_SIZE).npy
-ARGS_DAAL4PY_dfclf5 = 	--fileX data/multi/X-$(DFCLF_SIZE).npy \
-			--fileY data/multi/y-$(DFCLF_SIZE).npy
-ARGS_DAAL4PY_dfreg = 	--fileX data/reg/X-$(DFREG_SIZE).npy \
-			--fileY data/reg/y-$(DFREG_SIZE).npy
+ARGS_DAAL4PY_svm2 =	--file-X-train data/two/X-$(SVM_SIZE).npy \
+			--file-y-train data/two/y-$(SVM_SIZE).npy
+ARGS_DAAL4PY_svm5 = 	--file-X-train data/multi/X-$(SVM_SIZE).npy \
+			--file-y-train data/multi/y-$(SVM_SIZE).npy
+ARGS_DAAL4PY_logreg2 =	--file-X-train data/two/X-$(LOGREG_SIZE).npy \
+			--file-y-train data/two/y-$(LOGREG_SIZE).npy
+ARGS_DAAL4PY_logreg5 =	--file-X-train data/multi/X-$(LOGREG_SIZE).npy \
+			--file-y-train data/multi/y-$(LOGREG_SIZE).npy
+ARGS_DAAL4PY_dfclf2 = 	--file-X-train data/two/X-$(DFCLF_SIZE).npy \
+			--file-y-train data/two/y-$(DFCLF_SIZE).npy
+ARGS_DAAL4PY_dfclf5 = 	--file-X-train data/multi/X-$(DFCLF_SIZE).npy \
+			--file-y-train data/multi/y-$(DFCLF_SIZE).npy
+ARGS_DAAL4PY_dfreg = 	--file-X-train data/reg/X-$(DFREG_SIZE).npy \
+			--file-y-train data/reg/y-$(DFREG_SIZE).npy
 
 comma = ,
 
 
@@ -5,9 +5,16 @@ Python*. See benchmark results [here](https://intelpython.github.io/scikit-learn
 
 ## Prerequisites
 - python and scikit-learn to run python versions
+- pandas when using its DataFrame as input data format
 - `icc`, `ifort`, `mkl`, `daal` to compile and run native benchmarks
 
-## Automatically build and run
+## How to create conda environment for benchmarking
+`conda create -n skl_bench -c intel python=3.7 scikit-learn pandas`
+
+## Running Python benchmarks with runner script
+`python runner --config config_example.json [--output-format json --verbose]`
+
+## Legacy automatic building and running
 - Run `make`. This will generate data, compile benchmarks, and run them.
   - To run only scikit-learn benchmarks, use `make sklearn`.
   - To run only native benchmarks, use `make native`.
 
@@ -0,0 +1,213 @@
+{
+    "common": {
+        "lib": ["sklearn", "daal4py"],
+        "data-format": ["pandas"],
+        "data-order": ["F"],
+        "dtype": ["float64"]
+    },
+    "cases": [
+        {
+            "algorithm": "distances",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 15000,
+                    "training": {
+                        "n_samples": 1000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "kmeans",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "kmeans",
+                    "n_clusters": 10,
+                    "n_features": 50,
+                    "training": {
+                        "n_samples": 1000000
+                    }
+                }
+            ],
+            "n-clusters": [10]
+        },
+        {
+            "algorithm": "dbscan",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "blobs",
+                    "n_clusters": 10,
+                    "n_features": 50,
+                    "training": {
+                        "n_samples": 100000
+                    }
+                }
+            ],
+            "min-samples": [5000],
+            "eps": [1]
+        },
+        {
+            "algorithm": "linear",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "regression",
+                    "n_features": 50,
+                    "training": {
+                        "n_samples": 1000000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "ridge",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "regression",
+                    "n_features": 50,
+                    "training": {
+                        "n_samples": 1000000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "df_clsf",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                },
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 5,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "df_regr",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "regression",
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "log_reg",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 100000
+                    }
+                },
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 5,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 100000
+                    }
+                }
+            ]
+        },
+        {
+            "algorithm": "pca",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                }
+            ],
+            "svd-solver": ["daal", "full"]
+        },
+        {
+            "algorithm": "svm",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 20000
+                    }
+                },
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 5,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 20000
+                    }
+                }
+            ],
+            "max-cache-size": [4],
+            "kernel": ["rbf"]
+        },
+        {
+            "lib": ["xgboost"],
+            "algorithm": "gbt",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "classification",
+                    "n_classes": 2,
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                }
+            ],
+            "tree-method": ["hist"],
+            "objective": ["binary:logistic"]
+        },
+        {
+            "lib": ["xgboost"],
+            "algorithm": "gbt",
+            "dataset": [
+                {
+                    "source": "synthetic",
+                    "type": "regression",
+                    "n_features": 100,
+                    "training": {
+                        "n_samples": 10000
+                    }
+                }
+            ],
+            "tree-method": ["hist"],
+            "objective": ["reg:squarederror"]
+        }
+    ]
+}