Format code with yapf, black, autopep8 and isort

deepsource-autofix[bot] · web-flow · commit a80eadbe8ae5 · 2022-05-12T22:03:38.000Z
diff --git a/experimentation/general.py b/experimentation/general.py
@@ -12,14 +12,10 @@
 from math import floor
 from os import walk
 
-current = os.path.dirname(os.path.realpath(__file__))
-parent = os.path.dirname(current)
-sys.path.append(parent)
-
 import numpy as np
 import pandas as pd
 import yagmail
-from sklearn.metrics import mean_squared_error, f1_score, accuracy_score
+from sklearn.metrics import accuracy_score, f1_score, mean_squared_error
 from sklearn.model_selection import StratifiedKFold
 from sklearn.naive_bayes import GaussianNB
 from sklearn.neighbors import KNeighborsClassifier
@@ -28,153 +24,183 @@
 from instance_selection import ENN, LSSm
 from semisupervised import DensityPeaks
 
+current = os.path.dirname(os.path.realpath(__file__))
+parent = os.path.dirname(current)
+sys.path.append(parent)
+
 time_str = time.strftime("%Y%m%d-%H%M%S")
 k = 3
 folds = 10
 precision = 0.05
-file_name = 'experiments'
-csv_results = os.path.join('.', 'results', file_name + '_' + time_str + '.csv')
-log_file = os.path.join('.', 'logs', '_'.join([file_name, time_str]) + '.log')
-
-logging.basicConfig(level=logging.DEBUG,
-                    format=' %(asctime)s :: %(levelname)-8s :: %(message)s',
-                    handlers=[logging.FileHandler(log_file),
-                              logging.StreamHandler(sys.stdout)]
-                    )
+file_name = "experiments"
+csv_results = os.path.join(".", "results", file_name + "_" + time_str + ".csv")
+log_file = os.path.join(".", "logs", "_".join([file_name, time_str]) + ".log")
+
+logging.basicConfig(
+    level=logging.DEBUG,
+    format=" %(asctime)s :: %(levelname)-8s :: %(message)s",
+    handlers=[logging.FileHandler(
+        log_file), logging.StreamHandler(sys.stdout)],
+)
 
 
 def search_datasets(folder):
     if os.path.isdir(folder):
-        logging.info(f'Looking up for datasets in {folder}')
+        logging.info(f"Looking up for datasets in {folder}")
     else:
-        logging.error(f'{folder} does not exist')
+        logging.error(f"{folder} does not exist")
 
     datasets_found = next(walk(folder), (None, None, []))[2]
     datasets_found.sort()
-    logging.info(f'Founded {len(datasets_found)} - {datasets_found}')
+    logging.info(f"Founded {len(datasets_found)} - {datasets_found}")
 
     header = [
-        'dataset',
-        'percent labeled',
-        'fold',
-        'base',
-        'filter',
-        'f1-score',
-        'mean squared error',
-        'accuracy score'
+        "dataset",
+        "percent labeled",
+        "fold",
+        "base",
+        "filter",
+        "f1-score",
+        "mean squared error",
+        "accuracy score",
     ]
 
-    with open(csv_results, 'w') as save:
+    with open(csv_results, "w") as save:
         w = csv.writer(save)
         w.writerow(header)
         save.close()
 
     datasets = dict.fromkeys(datasets_found)
     for dataset in datasets_found:
-        datasets[dataset] = pd.read_csv(os.path.join(folder, dataset),
-                                        header=None)
-    logging.debug('Datasets ready to be used')
+        datasets[dataset] = pd.read_csv(
+            os.path.join(folder, dataset), header=None)
+    logging.debug("Datasets ready to be used")
 
     return datasets
 
 
 def main(datasets):
-    logging.info('Starting main...')
+    logging.info("Starting main...")
     random_state = 0x24032022
     skf = StratifiedKFold(n_splits=folds, shuffle=True,
                           random_state=random_state)
     classifiers = [KNeighborsClassifier, DecisionTreeClassifier, GaussianNB]
     classifiers_params = [
-        {'n_neighbors': k, 'n_jobs': -1}, {'random_state': random_state}, {}
+        {"n_neighbors": k, "n_jobs": -1},
+        {"random_state": random_state},
+        {},
     ]
-    filters = [ENN, LSSm, 'ENANE']
+    filters = [ENN, LSSm, "ENANE"]
 
     for dataset, values in datasets.items():
-        logging.info(f'\n\nCurrent dataset: {dataset} - Shape: '
-                     f'{values.shape}')
+        logging.info(
+            f"\n\nCurrent dataset: {dataset} - Shape: " f"{values.shape}")
         for n_classifier, classifier in enumerate(classifiers):
             classifier_name = classifier.__name__
             for filter_method in filters:
-                filter_name = filter_method if isinstance(
-                    filter_method, str) else filter_method.__name__
+                filter_name = (
+                    filter_method
+                    if isinstance(filter_method, str)
+                    else filter_method.__name__
+                )
                 samples = values.iloc[:, :-1]
                 y = values.iloc[:, -1]
                 y_df = pd.DataFrame(y.tolist())
-                for fold, (train_index, test_index) in enumerate(skf.split(
-                        samples, y)):
+                for fold, (train_index, test_index) in enumerate(skf.split(samples, y)):
                     t_start = time.time()
-                    logging.info(f'Dataset: {dataset} -- Classifier: '
-                                 f'{classifier_name} -- Filter: {filter_name} '
-                                 f'-- Fold: {fold}')
+                    logging.info(
+                        f"Dataset: {dataset} -- Classifier: "
+                        f"{classifier_name} -- Filter: {filter_name} "
+                        f"-- Fold: {fold}"
+                    )
                     x_train = samples.iloc[train_index, :].copy(deep=True)
                     x_test = samples.iloc[test_index, :].copy(deep=True)
                     y_train = y_df.iloc[train_index, :].copy(deep=True)
                     y_test = y_df.iloc[test_index, :].copy(deep=True)
 
                     unlabeled_indexes = np.random.choice(
-                        train_index, floor(len(x_train) * (1 - precision)),
-                        replace=False)
+                        train_index,
+                        floor(len(x_train) * (1 - precision)),
+                        replace=False,
+                    )
 
                     y_train.at[unlabeled_indexes] = -1
 
                     model = DensityPeaks.STDPNF(
                         classifier=classifier,
                         classifier_params=classifiers_params[n_classifier],
                         filtering=True,
-                        filter_method=filter_method
+                        filter_method=filter_method,
                     )
                     try:
                         model.fit(x_train, y_train)
                         y_pred = model.predict(x_test)
                         f1 = f1_score(y_true=y_test, y_pred=y_pred,
                                       average="weighted")
-                        mse = mean_squared_error(y_true=y_test,
-                                                 y_pred=y_pred)
+                        mse = mean_squared_error(y_true=y_test, y_pred=y_pred)
                         acc = accuracy_score(y_true=y_test, y_pred=y_pred)
 
-                        logging.info(f'\tf1: {f1:.2f} -- mse: {mse:.2f} -- acc:'
-                                     f' {acc:.2f}')
+                        logging.info(
+                            f"\tf1: {f1:.2f} -- mse: {mse:.2f} -- acc:" f" {acc:.2f}"
+                        )
                     except Exception:
-                        f1 = mse = acc = ''
-                        logging.exception('Failed')
+                        f1 = mse = acc = ""
+                        logging.exception("Failed")
                     t_end = time.time()
                     logging.info(
-                        f'\t\tElapsed: {(t_end - t_start) / 60:.2f} minutes')
-                    with open(csv_results, 'a') as save:
+                        f"\t\tElapsed: {(t_end - t_start) / 60:.2f} minutes")
+                    with open(csv_results, "a") as save:
                         w = csv.writer(save)
-                        w.writerow([dataset, precision, fold, classifier_name,
-                                    filter_name, f1, mse, acc])
-
-
-if __name__ == '__main__':
-    mail = 'ntoolsecure'
-    passwd = 'qfj3nfr_jnt7ATZ8jgh'
+                        w.writerow(
+                            [
+                                dataset,
+                                precision,
+                                fold,
+                                classifier_name,
+                                filter_name,
+                                f1,
+                                mse,
+                                acc,
+                            ]
+                        )
+
+
+if __name__ == "__main__":
+    mail = "ntoolsecure"
+    passwd = "qfj3nfr_jnt7ATZ8jgh"
     yag = yagmail.SMTP(user=mail, password=passwd)
     t_start_g = time.time()
     try:
-        logging.info('--- Starting ---')
-        datasets_folder = os.path.join('..', 'datasets', 'UCI-Experimentation')
+        logging.info("--- Starting ---")
+        datasets_folder = os.path.join("..", "datasets", "UCI-Experimentation")
         datasets_dfs = search_datasets(datasets_folder)
 
         main(datasets_dfs)
 
-        logging.info('--- Process completed ---')
+        logging.info("--- Process completed ---")
         attach = [csv_results, log_file]
         t_end_g = time.time()
-        logging.info(f'Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes')
-        yag.send(to='dpr1005@alu.ubu.es', subject='self_training_validation '
-                                                  'COMPLETED',
-                 contents='self_training_validation has been completed.\n'
-                          f'Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes',
-                 attachments=attach)
+        logging.info(f"Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes")
+        yag.send(
+            to="dpr1005@alu.ubu.es",
+            subject="self_training_validation " "COMPLETED",
+            contents="self_training_validation has been completed.\n"
+            f"Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes",
+            attachments=attach,
+        )
     except Exception as e:
         t_end_g = time.time()
-        content = f'FATAL ERROR - Check the attached log\n' \
-                  f'Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes'
-
-        yag.send(to='dpr1005@alu.ubu.es', subject='self_training_validation '
-                                                  'ERROR',
-                 contents=content, attachments=[log_file])
-        logging.exception('--- Process has broken ---')
-        logging.info(f'Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes')
+        content = (
+            f"FATAL ERROR - Check the attached log\n"
+            f"Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes"
+        )
+
+        yag.send(
+            to="dpr1005@alu.ubu.es",
+            subject="self_training_validation " "ERROR",
+            contents=content,
+            attachments=[log_file],
+        )
+        logging.exception("--- Process has broken ---")
+        logging.info(f"Elapsed: {(t_end_g - t_start_g) / 60:.2f} minutes")
     logging.info("Email sent successfully")
diff --git a/experimentation/results.py b/experimentation/results.py
@@ -11,50 +11,52 @@
 import numpy as np
 import pandas as pd
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
-    mse = 'mean squared error'
-    pl = 'percent labeled'
+    mse = "mean squared error"
+    pl = "percent labeled"
 
-    folder = join('.', 'results', '')
-    ranks_path = 'ranks'
-    plots = 'plots'
+    folder = join(".", "results", "")
+    ranks_path = "ranks"
+    plots = "plots"
     # A list of the percentages of the data that is labeled.
     precisions = [0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35]
     percent_precisions = [x * 100 for x in precisions]
-    metrics = ['f1-score', mse, 'accuracy score']
+    metrics = ["f1-score", mse, "accuracy score"]
     results_found = next(walk(folder), (None, None, []))[2]
     if len(results_found) != len(precisions) + 1:
         print(
             f"This script only works with {len(precisions) + 1} results in the "
-            f"\'results\' folder.")
+            f"'results' folder."
+        )
         exit(1)
     dfs = []
     for index, r in enumerate(results_found):
         dfs.append(pd.read_csv(folder + results_found[index]))
 
     df = pd.concat(dfs, ignore_index=True)
-    df.drop(['fold', 'Unnamed: 0'], axis=1, inplace=True)
+    df.drop(["fold", "Unnamed: 0"], axis=1, inplace=True)
 
     classifiers = dfs[0].base.unique()
-    filters = np.append(dfs[0]['filter'].unique(), 'base')
-    datasets = dfs[0]['dataset'].unique()
+    filters = np.append(dfs[0]["filter"].unique(), "base")
+    datasets = dfs[0]["dataset"].unique()
 
     ranks = {}
-    vals = ['base', 'filter', pl, 'f1-score',
-            'mean squared error', 'accuracy score']
+    vals = ["base", "filter", pl, "f1-score",
+            "mean squared error", "accuracy score"]
 
     means = {}
     for classifier in classifiers:
         cl = []
         for dataset in datasets:
-            rows = df[df['dataset'] == dataset]
+            rows = df[df["dataset"] == dataset]
             for precision in precisions:
                 temp = pd.DataFrame(index=filters, columns=metrics)
                 temp[pl] = precision
                 p_rows = rows.loc[
-                    (rows['base'] == classifier) & (rows[pl] == precision)]
-                vals = p_rows.groupby(['filter']).mean()
+                    (rows["base"] == classifier) & (rows[pl] == precision)
+                ]
+                vals = p_rows.groupby(["filter"]).mean()
 
                 for metric in metrics:
                     dff = vals[metric].to_frame()
@@ -77,13 +79,12 @@
                 rks[(precision, metric)] = np.ravel(vals.to_numpy())
         ranks[classifier] = rks
 
-    fig, axs = \
-        plt.subplots(nrows=3, ncols=3, sharex='all', sharey='all', figsize=(
-            12, 5))
+    fig, axs = plt.subplots(
+        nrows=3, ncols=3, sharex="all", sharey="all", figsize=(12, 5)
+    )
 
     for (i, classifier), axss in zip(enumerate(classifiers), axs):
-        df_fin = pd.DataFrame(ranks.get(classifier), index=filters). \
-            transpose()
+        df_fin = pd.DataFrame(ranks.get(classifier), index=filters).transpose()
 
         for (j, metric), ax in zip(enumerate(metrics), axss):
             vals = []
@@ -98,7 +99,7 @@
                 ax.set_title(str(metric))
 
             if j == 0:
-                classifier = classifier.split('Classifier')[0]
+                classifier = classifier.split("Classifier")[0]
                 ax.set_ylabel(str(classifier))
 
             # ax = df_f.plot(
@@ -110,14 +111,14 @@
             # )
             # plt.savefig(fname=join(plots, f'{classifier}_{metric}.png'),
             #            dpi=300)
-        df_fin.to_csv(join(ranks_path, f'{classifier}.csv'))
+        df_fin.to_csv(join(ranks_path, f"{classifier}.csv"))
 
     fig.legend(
         labels=filters,
         loc="center right",
     )
     plt.subplots_adjust(right=0.9)
 
-    plt.savefig(fname=join(plots, 'General.png'), dpi=300)
-    df.to_csv(join(ranks_path, 'results.csv'), index=False)
-    print('Plots generated and its CSV')
+    plt.savefig(fname=join(plots, "General.png"), dpi=300)
+    df.to_csv(join(ranks_path, "results.csv"), index=False)
+    print("Plots generated and its CSV")