Changed the print function (makes print shorter)

igor_rukhovich · igor_rukhovich · commit f0aa477929c7 · 2020-10-08T19:27:19.000+03:00
diff --git a/modelbuilders/lgbm_mb.py b/modelbuilders/lgbm_mb.py
@@ -10,8 +10,8 @@
 from typing import Tuple
 
 
-from bench import load_data, measure_function_time, parse_args, print_output, rmse_score
-from utils import get_accuracy
+from bench import load_data, measure_function_time, parse_args, rmse_score
+from utils import get_accuracy, print_output
 
 
 parser = argparse.ArgumentParser(
@@ -80,17 +80,17 @@
 if 'OMP_NUM_THREADS' in environ.keys():
     lgbm_params['nthread'] = int(environ['OMP_NUM_THREADS'])
 
-columns: Tuple[str, ...] = ('batch', 'arch', 'prefix', 'function',
-                            'threads', 'dtype', 'size', 'num_trees')
+columns: Tuple[str, ...] = ('batch', 'arch', 'prefix', 'function', 'prep_function',
+                            'threads', 'dtype', 'size', 'num_trees', 'time', 'prep_time')
 
 if params.objective.startswith('reg'):
     task = 'regression'
     metric_name, metric_func = 'rmse', rmse_score
-    columns += ('rmse', 'time')
+    columns += ('rmse',)
 else:
     task = 'classification'
     metric_name, metric_func = 'accuracy[%]', get_accuracy
-    columns += ('n_classes', 'accuracy', 'time')
+    columns += ('n_classes', 'accuracy')
     if 'cudf' in str(type(y_train)):
         params.n_classes = y_train[y_train.columns[0]].nunique()
     else:
@@ -107,11 +107,13 @@
 t_train, model_lgbm = measure_function_time(
     lgbm.train, lgbm_params, lgbm_train, params=params, num_boost_round=params.n_estimators,
     valid_sets=lgbm_train, verbose_eval=False)
-y_train_pred = model_lgbm.predict(X_train)
-train_metric = metric_func(y_train, y_train_pred)
+train_metric = None
+if X_train != X_test:
+    y_train_pred = model_lgbm.predict(X_train)
+    train_metric = metric_func(y_train, y_train_pred)
 
 t_lgbm_pred, y_test_pred = measure_function_time(model_lgbm.predict, X_test, params=params)
-test_metric_xgb = metric_func(y_test, y_test_pred)
+test_metric_lgbm = metric_func(y_test, y_test_pred)
 
 t_trans, model_daal = measure_function_time(
     daal4py.get_gbt_model_from_lightgbm, model_lgbm, params=params)
@@ -130,12 +132,10 @@
 
 print_output(
     library='modelbuilders', algorithm=f'lightgbm_{task}_and_modelbuilder',
-    stages=['lgbm_train_matrix_create', 'lgbm_test_matrix_create', 'lgbm_training',
-            'lgbm_prediction', 'lgbm_to_daal_conv', 'daal_prediction'],
+    stages=['lgbm_train', 'lgbm_predict', 'daal_predict'],
     columns=columns, params=params,
     functions=['lgbm_dataset', 'lgbm_dataset', 'lgbm_train', 'lgbm_predict', 'lgbm_to_daal',
                'daal_compute'],
-    times=[t_creat_train, t_creat_test, t_train, t_lgbm_pred, t_trans, t_daal_pred],
-    accuracy_type=metric_name, accuracies=[0, 0, train_metric, test_metric_xgb, 0,
-                                           test_metric_daal],
-    data=[X_train, X_test, X_train, X_test, X_train, X_test])
+    times=[t_creat_train, t_train, t_creat_test, t_lgbm_pred, t_trans, t_daal_pred],
+    accuracy_type=metric_name, accuracies=[train_metric, test_metric_lgbm, test_metric_daal],
+    data=[X_train, X_test, X_test])
diff --git a/modelbuilders/utils.py b/modelbuilders/utils.py
@@ -3,6 +3,8 @@
 # SPDX-License-Identifier: MIT
 
 
+from bench import print_header, print_row
+import json
 import numpy as np
 
 
@@ -21,3 +23,46 @@ def get_accuracy(true_labels, prediction):
         if true_labels[i] != pred_label:
             errors += 1
     return 100 * (1 - errors/len(true_labels))
+
+
+def print_output(library, algorithm, stages, columns, params, functions,
+                 times, accuracy_type, accuracies, data):
+    if params.output_format == 'csv':
+        print_header(columns, params)
+        for i in range(len(accuracies)):
+            print_row(
+                columns, params, prep_function=functions[2 * i],
+                function=functions[2 * i + 1],
+                time=times[2 * i], prep_time=times[2 * i + 1],
+                accuracy=accuracies[i])
+    elif params.output_format == 'json':
+        output = []
+        for i in range(len(stages)):
+            result = {
+                'library': library,
+                'algorithm': algorithm,
+                'stage': stages[i],
+                'input_data': {
+                    'data_format': params.data_format,
+                    'data_order': params.data_order,
+                    'data_type': str(params.dtype),
+                    'dataset_name': params.dataset_name,
+                    'rows': data[i].shape[0],
+                    'columns': data[i].shape[1]
+                }
+            }
+            if stages[i] == 'daal4py_predict':
+                result.update({'conversion_to_daal4py': times[2 * i],
+                               'prediction_time': times[2 * i + 1]})
+            elif 'train' in stages[i]:
+                result.update({'matrix_creation_time': times[2 * i],
+                               'training_time': times[2 * i + 1]})
+            else:
+                result.update({'matrix_creation_time': times[2 * i],
+                               'prediction_time': times[2 * i + 1]})
+            if accuracies[i] is not None:
+                result.update({f'{accuracy_type}': accuracies[i]})
+            if hasattr(params, 'n_classes'):
+                result['input_data'].update({'classes': params.n_classes})
+            output.append(result)
+        print(json.dumps(output, indent=4))
diff --git a/modelbuilders/xgb_mb.py b/modelbuilders/xgb_mb.py
@@ -10,8 +10,8 @@
 import xgboost as xgb
 
 
-from bench import load_data, measure_function_time, parse_args, print_output, rmse_score
-from utils import get_accuracy
+from bench import load_data, measure_function_time, parse_args, rmse_score
+from utils import get_accuracy, print_output
 
 
 parser = argparse.ArgumentParser(
@@ -98,17 +98,17 @@
 if 'OMP_NUM_THREADS' in environ.keys():
     xgb_params['nthread'] = int(environ['OMP_NUM_THREADS'])
 
-columns: Tuple[str, ...] = ('batch', 'arch', 'prefix', 'function',
-                            'threads', 'dtype', 'size', 'num_trees')
+columns: Tuple[str, ...] = ('batch', 'arch', 'prefix', 'function', 'prep_function',
+                            'threads', 'dtype', 'size', 'num_trees', 'time', 'prep_time')
 
 if params.objective.startswith('reg'):
     task = 'regression'
     metric_name, metric_func = 'rmse', rmse_score
-    columns += ('rmse', 'time')
+    columns += ('rmse',)
 else:
     task = 'classification'
     metric_name, metric_func = 'accuracy[%]', get_accuracy
-    columns += ('n_classes', 'accuracy', 'time')
+    columns += ('n_classes', 'accuracy')
     if 'cudf' in str(type(y_train)):
         params.n_classes = y_train[y_train.columns[0]].nunique()
     else:
@@ -134,8 +134,10 @@ def predict():
 
 t_train, model_xgb = measure_function_time(
     fit, None if params.count_dmatrix else dtrain, params=params)
-y_train_pred = model_xgb.predict(dtrain)
-train_metric = metric_func(y_train, y_train_pred)
+train_metric = None
+if X_train != X_test:
+    y_train_pred = model_xgb.predict(dtrain)
+    train_metric = metric_func(y_train, y_train_pred)
 
 t_xgb_pred, y_test_pred = measure_function_time(predict, params=params)
 test_metric_xgb = metric_func(y_test, y_test_pred)
@@ -157,12 +159,10 @@ def predict():
 
 print_output(
     library='modelbuilders', algorithm=f'xgboost_{task}_and_modelbuilder',
-    stages=['xgb_train_dmatrix_create', 'xgb_test_dmatrix_create', 'xgb_training', 'xgb_prediction',
-            'xgb_to_daal_conv', 'daal_prediction'],
+    stages=['xgboost_train', 'xgboost_predict', 'daal4py_predict'],
     columns=columns, params=params,
     functions=['xgb_dmatrix', 'xgb_dmatrix', 'xgb_train', 'xgb_predict', 'xgb_to_daal',
                'daal_compute'],
-    times=[t_creat_train, t_creat_test, t_train, t_xgb_pred, t_trans, t_daal_pred],
-    accuracy_type=metric_name, accuracies=[0, 0, train_metric, test_metric_xgb, 0,
-                                           test_metric_daal],
-    data=[X_train, X_test, X_train, X_test, X_train, X_test])
+    times=[t_creat_train, t_train, t_creat_test, t_xgb_pred, t_trans, t_daal_pred],
+    accuracy_type=metric_name, accuracies=[train_metric, test_metric_xgb, test_metric_daal],
+    data=[X_train, X_test, X_test])