IntelPython
diff --git a/‎Makefile
Lines changed: 61 additions & 56 deletions b/‎Makefile
Lines changed: 61 additions & 56 deletions
diff --git a/‎daal4py/df_regr.py
Lines changed: 1 addition & 1 deletion b/‎daal4py/df_regr.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎daal4py/kmeans.py
Lines changed: 16 additions & 8 deletions b/‎daal4py/kmeans.py
Lines changed: 16 additions & 8 deletions
diff --git a/‎daal4py/log_reg.py
Lines changed: 11 additions & 0 deletions b/‎daal4py/log_reg.py
Lines changed: 11 additions & 0 deletions
diff --git a/‎native/Makefile
Lines changed: 6 additions & 5 deletions b/‎native/Makefile
Lines changed: 6 additions & 5 deletions
@@ -4,17 +4,17 @@ REGRESSION_SIZE = 1000000x50
 KMEANS_SAMPLES = 1000000
 KMEANS_FEATURES = 50
 KMEANS_SIZE = $(KMEANS_SAMPLES)x$(KMEANS_FEATURES)
-SVM_SAMPLES = 50000
+SVM_SAMPLES = 100000
 SVM_FEATURES = 100
 SVM_SIZE = $(SVM_SAMPLES)x$(SVM_FEATURES)
 LOGREG_SAMPLES = 100000
 LOGREG_FEATURES = 100
 LOGREG_SIZE = $(LOGREG_SAMPLES)x$(LOGREG_FEATURES)
 DFCLF_SAMPLES = 10000
-DFCLF_FEATURES = 50
+DFCLF_FEATURES = 100
 DFCLF_SIZE = $(DFCLF_SAMPLES)x$(DFCLF_FEATURES)
 DFREG_SAMPLES = 10000
-DFREG_FEATURES = 50
+DFREG_FEATURES = 100
 DFREG_SIZE = $(DFREG_SAMPLES)x$(DFREG_FEATURES)
 
 ITERATIONS = 10
@@ -29,20 +29,24 @@ SHELL = bash -o pipefail
 
 # Other options
 NUM_THREADS = -1
+SVM_NUM_THREADS = 0
+LOGREG_NUM_THREADS = $(SVM_NUM_THREADS)
+DFCLF_NUM_THREADS = $(SVM_NUM_THREADS)
+DFREG_NUM_THREADS = $(SVM_NUM_THREADS)
 MULTIPLIER = 100
 DATA_DIR = data/
 DATA_kmeans = data/kmeans_$(KMEANS_SIZE).npy
 
-COMMON_ARGS = --batch '$(BATCH)' --arch '$(HOST)' \
-			  --num-threads '$(NUM_THREADS)' --header
+COMMON_ARGS =	--batch '$(BATCH)' --arch '$(HOST)' \
+		--num-threads '$(NUM_THREADS)' --header
 
 # Define which benchmarks to run
-NATIVE_BENCHMARKS =		distances ridge linear kmeans svm2 svm5 \
-						logreg2 logreg5 dfclf2 dfclf5 dfreg pca_daal pca_full
+NATIVE_BENCHMARKS =	distances ridge linear kmeans svm2 svm5 \
+			logreg2 logreg5 dfclf2 dfclf5 dfreg pca_daal pca_full
 SKLEARN_BENCHMARKS = 	distances ridge linear kmeans svm2 svm5 \
-						logreg2 logreg5 dfclf2 dfclf5 dfreg pca_full
+			logreg2 logreg5 dfclf2 dfclf5 dfreg pca_full
 DAAL4PY_BENCHMARKS = 	distances ridge linear kmeans svm2 svm5 \
-						logreg2 logreg5 dfclf2 dfclf5 dfreg pca_daal pca_full
+			logreg2 logreg5 dfclf2 dfclf5 dfreg pca_daal pca_full
 
 # Define native benchmark binary names
 NATIVE_distances = distances
@@ -61,41 +65,41 @@ NATIVE_pca_full = pca
 
 # Define arguments for native benchmarks
 ARGS_NATIVE_distances = --num-threads "$(NUM_THREADS)" \
-						--size "$(DISTANCES_SIZE)" --header
+			--size "$(DISTANCES_SIZE)" --header
 ARGS_NATIVE_ridge = 	--num-threads "$(NUM_THREADS)" \
-						--size "$(REGRESSION_SIZE)" --header
+			--size "$(REGRESSION_SIZE)" --header
 ARGS_NATIVE_linear = 	--num-threads "$(NUM_THREADS)" \
-						--size "$(REGRESSION_SIZE)" --header
+			--size "$(REGRESSION_SIZE)" --header
 ARGS_NATIVE_pca_daal = 	--num-threads "$(NUM_THREADS)" --header \
-						--size "$(REGRESSION_SIZE)" --svd-solver daal
+			--size "$(REGRESSION_SIZE)" --svd-solver daal
 ARGS_NATIVE_pca_full = 	--num-threads "$(NUM_THREADS)" --header \
-						--size "$(REGRESSION_SIZE)" --svd-solver full
+			--size "$(REGRESSION_SIZE)" --svd-solver full
 ARGS_NATIVE_kmeans = 	--num-threads "$(NUM_THREADS)" --header \
-						--data-multiplier "$(MULTIPLIER)" \
-						--filex data/kmeans_$(KMEANS_SIZE).npy \
-						--filei data/kmeans_$(KMEANS_SIZE).init.npy \
-						--filet data/kmeans_$(KMEANS_SIZE).tol.npy 
-ARGS_NATIVE_svm2 =		--fileX data/two/X-$(SVM_SIZE).npy \
-						--fileY data/two/y-$(SVM_SIZE).npy \
-						--num-threads $(SVM_NUM_THREADS) --header
-ARGS_NATIVE_svm5 = 		--fileX data/multi/X-$(SVM_SIZE).npy \
-						--fileY data/multi/y-$(SVM_SIZE).npy \
-						--num-threads $(SVM_NUM_THREADS) --header
+			--data-multiplier "$(MULTIPLIER)" \
+			--filex data/kmeans_$(KMEANS_SIZE).npy \
+			--filei data/kmeans_$(KMEANS_SIZE).init.npy \
+			--filet data/kmeans_$(KMEANS_SIZE).tol.npy 
+ARGS_NATIVE_svm2 =	--fileX data/two/X-$(SVM_SIZE).npy \
+			--fileY data/two/y-$(SVM_SIZE).npy \
+			--num-threads $(SVM_NUM_THREADS) --header
+ARGS_NATIVE_svm5 = 	--fileX data/multi/X-$(SVM_SIZE).npy \
+			--fileY data/multi/y-$(SVM_SIZE).npy \
+			--num-threads $(SVM_NUM_THREADS) --header
 ARGS_NATIVE_logreg2 =	--fileX data/two/X-$(LOGREG_SIZE).npy \
-						--fileY data/two/y-$(LOGREG_SIZE).npy \
-						--num-threads $(LOGREG_NUM_THREADS) --header
+			--fileY data/two/y-$(LOGREG_SIZE).npy \
+			--num-threads $(LOGREG_NUM_THREADS) --header
 ARGS_NATIVE_logreg5 =	--fileX data/multi/X-$(LOGREG_SIZE).npy \
-						--fileY data/multi/y-$(LOGREG_SIZE).npy \
-						--num-threads $(LOGREG_NUM_THREADS) --header
+			--fileY data/multi/y-$(LOGREG_SIZE).npy \
+			--num-threads $(LOGREG_NUM_THREADS) --header
 ARGS_NATIVE_dfclf2 = 	--fileX data/two/X-$(DFCLF_SIZE).npy \
-						--fileY data/two/y-$(DFCLF_SIZE).npy \
-						--num-threads $(DFCLF_NUM_THREADS) --header
+			--fileY data/two/y-$(DFCLF_SIZE).npy \
+			--num-threads $(DFCLF_NUM_THREADS) --header
 ARGS_NATIVE_dfclf5 = 	--fileX data/multi/X-$(DFCLF_SIZE).npy \
-						--fileY data/multi/y-$(DFCLF_SIZE).npy \
-						--num-threads $(DFCLF_NUM_THREADS) --header
+			--fileY data/multi/y-$(DFCLF_SIZE).npy \
+			--num-threads $(DFCLF_NUM_THREADS) --header
 ARGS_NATIVE_dfreg = 	--fileX data/reg/X-$(DFREG_SIZE).npy \
-						--fileY data/reg/y-$(DFREG_SIZE).npy \
-						--num-threads $(DFREG_NUM_THREADS) --header
+			--fileY data/reg/y-$(DFREG_SIZE).npy \
+			--num-threads $(DFREG_NUM_THREADS) --header
 
 SKLEARN_distances = distances
 SKLEARN_ridge = ridge
@@ -117,22 +121,22 @@ ARGS_SKLEARN_linear = 	--size "$(REGRESSION_SIZE)"
 ARGS_SKLEARN_pca_daal = --size "$(REGRESSION_SIZE)" --svd-solver daal
 ARGS_SKLEARN_pca_full = --size "$(REGRESSION_SIZE)" --svd-solver full
 ARGS_SKLEARN_kmeans = 	--data-multiplier "$(MULTIPLIER)" \
-						--filex data/kmeans_$(KMEANS_SIZE).npy \
-						--filei data/kmeans_$(KMEANS_SIZE).init.npy
-ARGS_SKLEARN_svm2 =		--fileX data/two/X-$(SVM_SIZE).npy \
-						--fileY data/two/y-$(SVM_SIZE).npy
+			--filex data/kmeans_$(KMEANS_SIZE).npy \
+			--filei data/kmeans_$(KMEANS_SIZE).init.npy
+ARGS_SKLEARN_svm2 =	--fileX data/two/X-$(SVM_SIZE).npy \
+			--fileY data/two/y-$(SVM_SIZE).npy
 ARGS_SKLEARN_svm5 = 	--fileX data/multi/X-$(SVM_SIZE).npy \
-						--fileY data/multi/y-$(SVM_SIZE).npy
+			--fileY data/multi/y-$(SVM_SIZE).npy
 ARGS_SKLEARN_logreg2 =	--fileX data/two/X-$(LOGREG_SIZE).npy \
-						--fileY data/two/y-$(LOGREG_SIZE).npy
+			--fileY data/two/y-$(LOGREG_SIZE).npy
 ARGS_SKLEARN_logreg5 =	--fileX data/multi/X-$(LOGREG_SIZE).npy \
-						--fileY data/multi/y-$(LOGREG_SIZE).npy
+			--fileY data/multi/y-$(LOGREG_SIZE).npy
 ARGS_SKLEARN_dfclf2 = 	--fileX data/two/X-$(DFCLF_SIZE).npy \
-						--fileY data/two/y-$(DFCLF_SIZE).npy
+			--fileY data/two/y-$(DFCLF_SIZE).npy
 ARGS_SKLEARN_dfclf5 = 	--fileX data/multi/X-$(DFCLF_SIZE).npy \
-						--fileY data/multi/y-$(DFCLF_SIZE).npy
-ARGS_SKLEARN_dfreg = 	--fileX data/multi/X-$(DFREG_SIZE).npy \
-						--fileY data/multi/y-$(DFREG_SIZE).npy
+			--fileY data/multi/y-$(DFCLF_SIZE).npy
+ARGS_SKLEARN_dfreg = 	--fileX data/reg/X-$(DFREG_SIZE).npy \
+			--fileY data/reg/y-$(DFREG_SIZE).npy
 
 DAAL4PY_distances = distances
 DAAL4PY_ridge = ridge
@@ -154,22 +158,23 @@ ARGS_DAAL4PY_linear = 	--size "$(REGRESSION_SIZE)"
 ARGS_DAAL4PY_pca_daal = --size "$(REGRESSION_SIZE)" --svd-solver daal
 ARGS_DAAL4PY_pca_full = --size "$(REGRESSION_SIZE)" --svd-solver full
 ARGS_DAAL4PY_kmeans = 	--data-multiplier "$(MULTIPLIER)" \
-						--filex data/kmeans_$(KMEANS_SIZE).npy \
-						--filei data/kmeans_$(KMEANS_SIZE).init.npy
-ARGS_DAAL4PY_svm2 =		--fileX data/two/X-$(SVM_SIZE).npy \
-						--fileY data/two/y-$(SVM_SIZE).npy
+			--filex data/kmeans_$(KMEANS_SIZE).npy \
+			--filei data/kmeans_$(KMEANS_SIZE).init.npy \
+			--filet data/kmeans_$(KMEANS_SIZE).tol.npy
+ARGS_DAAL4PY_svm2 =	--fileX data/two/X-$(SVM_SIZE).npy \
+			--fileY data/two/y-$(SVM_SIZE).npy
 ARGS_DAAL4PY_svm5 = 	--fileX data/multi/X-$(SVM_SIZE).npy \
-						--fileY data/multi/y-$(SVM_SIZE).npy
+			--fileY data/multi/y-$(SVM_SIZE).npy
 ARGS_DAAL4PY_logreg2 =	--fileX data/two/X-$(LOGREG_SIZE).npy \
-						--fileY data/two/y-$(LOGREG_SIZE).npy
+			--fileY data/two/y-$(LOGREG_SIZE).npy
 ARGS_DAAL4PY_logreg5 =	--fileX data/multi/X-$(LOGREG_SIZE).npy \
-						--fileY data/multi/y-$(LOGREG_SIZE).npy
+			--fileY data/multi/y-$(LOGREG_SIZE).npy
 ARGS_DAAL4PY_dfclf2 = 	--fileX data/two/X-$(DFCLF_SIZE).npy \
-						--fileY data/two/y-$(DFCLF_SIZE).npy
+			--fileY data/two/y-$(DFCLF_SIZE).npy
 ARGS_DAAL4PY_dfclf5 = 	--fileX data/multi/X-$(DFCLF_SIZE).npy \
-						--fileY data/multi/y-$(DFCLF_SIZE).npy
-ARGS_DAAL4PY_dfreg = 	--fileX data/multi/X-$(DFREG_SIZE).npy \
-						--fileY data/multi/y-$(DFREG_SIZE).npy
+			--fileY data/multi/y-$(DFCLF_SIZE).npy
+ARGS_DAAL4PY_dfreg = 	--fileX data/reg/X-$(DFREG_SIZE).npy \
+			--fileY data/reg/y-$(DFREG_SIZE).npy
 
 comma = ,
 
 
@@ -18,7 +18,7 @@ def df_regr_fit(X, y, n_trees=100, seed=12345, n_features_per_node=0,
     fptype = getFPType(X)
 
     features_per_node = X.shape[1]
-    if n_features_per_node > 0 or n_features_per_node <= features_per_node:
+    if n_features_per_node > 0 and n_features_per_node <= features_per_node:
         features_per_node = n_features_per_node
 
     engine = engines_mt2203(seed=seed, fptype=fptype)
 
@@ -5,16 +5,17 @@
 import argparse
 from bench import parse_args, time_mean_min, print_header, print_row, size_str
 from daal4py import kmeans
+from daal4py.sklearn.utils import getFPType
 import numpy as np
 
 parser = argparse.ArgumentParser(description='daal4py K-Means clustering '
                                              'benchmark')
-parser.add_argument('-x', '--filex', '--fileX', '--input',
+parser.add_argument('-x', '--filex', '--fileX', '--input', required=True,
                     type=str, help='Points to cluster')
-parser.add_argument('-i', '--filei', '--fileI', '--init',
+parser.add_argument('-i', '--filei', '--fileI', '--init', required=True,
                     type=str, help='Initial clusters')
-# parser.add_argument('-t', '--filet', '--fileT', '--tol',
-#                     type=str, help='Absolute threshold')
+parser.add_argument('-t', '--filet', '--fileT', '--tol', required=True,
+                    type=str, help='Absolute threshold')
 parser.add_argument('-m', '--data-multiplier', default=100,
                     type=int, help='Data multiplier')
 parser.add_argument('--maxiter', type=int, default=100,
@@ -25,6 +26,7 @@
 X = np.load(params.filex)
 X_init = np.load(params.filei)
 X_mult = np.vstack((X,) * params.data_multiplier)
+tol = np.load(params.filet)
 
 params.size = size_str(X.shape)
 params.n_clusters = X_init.shape[0]
@@ -34,17 +36,23 @@
 # Define functions to time
 def test_fit(X, X_init):
     algorithm = kmeans(
+        fptype=getFPType(X),
         nClusters=params.n_clusters,
-        maxIterations=params.maxiter
-    )  # FIXME tolerance?
+        maxIterations=params.maxiter,
+        assignFlag=True,
+        accuracyThreshold=tol
+    )
     return algorithm.compute(X, X_init)
 
 
 def test_predict(X, X_init):
     algorithm = kmeans(
+        fptype=getFPType(X),
         nClusters=params.n_clusters,
-        maxIterations=0
-    )  # FIXME tolerance
+        maxIterations=0,
+        assignFlag=True,
+        accuracyThreshold=0.0
+    )
     return algorithm.compute(X, X_init)
 
 
 
@@ -38,8 +38,19 @@ def __init__(self, X, y, beta, hess=False, fit_intercept=True):
         self.X = make2d(X)
         self.y = make2d(y)
 
+        self.last_beta = beta.copy()
+
+        self.func = None
+        self.grad = None
+        self.hess = None
+
     def compute(self, beta):
+        # Don't compute if we have already cached func, grad, hess
+        if self.func is not None and np.array_equal(beta, self.last_beta):
+            return
+
         result = self.algo.compute(self.X, self.y, make2d(beta))
+        np.copyto(self.last_beta, beta)
         self.func = result.valueIdx[0, 0] * self.n
         self.grad = result.gradientIdx.ravel() * self.n
         if self.compute_hess:
 
@@ -3,17 +3,18 @@
 # SPDX-License-Identifier: MIT
 
 BENCHMARKS += distances kmeans linear ridge pca \
-			  two_class_svm multi_class_svm log_reg_lbfgs \
-			  decision_forest_regr decision_forest_clsf
+	      two_class_svm multi_class_svm log_reg_lbfgs \
+	      decision_forest_regr decision_forest_clsf
 FOBJ = $(addprefix lbfgsb/,lbfgsb.o linpack.o timer.o)
 CXXSRCS = $(addsuffix _bench.cpp,$(BENCHMARKS))
 
 CXX = icc
+
 CXXFLAGS += -m64 -fPIC -fp-model strict -O3 -fomit-frame-pointer \
-		  -xSSE4.2 -axCORE-AVX2,COMMON-AVX512
+	    -xSSE4.2 -axCORE-AVX2,COMMON-AVX512
 CXXFLAGS += -std=c++14 -g
-LDFLAGS += -ltbb -lstdc++ -lpthread -lm -ldaal_core -ldaal_thread \
-		   -Wl,-rpath,$(CONDA_PREFIX)/lib
+LDFLAGS +=  -ltbb -lstdc++ -lpthread -lm -ldaal_core -ldaal_thread \
+	    -Wl,-rpath,$(CONDA_PREFIX)/lib
 CXXINCLUDE += include
 
 ifneq ($(CONDA_PREFIX),)