[ENH] made it possible to choose dataset name column to None, set to default to None

hadifawaz1999 · hadifawaz1999 · commit 54361216c0b7 · 2023-03-23T10:44:02.000+01:00
diff --git a/MCM/MCM.py b/MCM/MCM.py
@@ -38,7 +38,7 @@ def get_analysis(df_results,
                  used_mean='mean-difference',
                  order_stats='average-statistic',
                  order_better='decreasing',
-                 dataset_column='dataset_name',):
+                 dataset_column=None,):
     
     """
     
@@ -444,7 +444,7 @@ def get_line_heatmap(proposed_methods,
                      colorbar_value=None,
                      fig_size='auto',
                      font_size='auto',
-                     pixels_per_clf_hieght=7,
+                     pixels_per_clf_hieght=8,
                      pixels_per_clf_width=1.5,
                      colorbar_orientation='horizontal',
                      used_statistic='Score',
@@ -458,7 +458,7 @@ def get_line_heatmap(proposed_methods,
                      used_mean='mean-difference',
                      order_stats='average-statistic',
                      order_better='decreasing',
-                     dataset_column='dataset_name',
+                     dataset_column=None,
                      win_label='row>col',
                      tie_label='row=col',
                      loss_label='row<col'):
@@ -515,8 +515,8 @@ def get_line_heatmap(proposed_methods,
             if proposed_method not in analysis['classifier-names']:
                 assert df_results is not None
         
-        load_analysis = False
-        analysis = None
+                load_analysis = False
+                analysis = None
 
     if not isinstance(proposed_methods, list):
         proposed_methods = [proposed_methods]
@@ -584,7 +584,7 @@ def _get_line_heatmap(proposed_method,
                       used_mean='mean-difference',
                       order_stats='average-statistic',
                       order_better='decreasing',
-                      dataset_column='dataset_name',
+                      dataset_column=None,
                       win_label='row>column',
                       tie_label='row=column',
                       loss_label='row<column'):
@@ -765,8 +765,8 @@ def _get_line_heatmap(proposed_method,
         _vmax = 2
     else:
         _colormap = colormap
-        _vmin = min_value + 0.8*min_value
-        _vmax = max_value + 0.8*max_value
+        _vmin = min_value + 0.9*min_value
+        _vmax = max_value + 0.9*max_value
     
     if colorbar_value is None:
         _colorbar_value = capitalize_label('mean-difference')
diff --git a/MCM/utils.py b/MCM/utils.py
@@ -30,18 +30,22 @@ def decode_results_data_frame(df, analysis):
     df_columns = list(df.columns) # extract columns from data frame
 
     # check if dataset column name is correct
-    if analysis['dataset-column'] not in df_columns:
-        raise KeyError("The column "+analysis['dataset-column']+" is missing.")
+
+    if analysis['dataset-column'] is not None:
+        if analysis['dataset-column'] not in df_columns:
+            raise KeyError("The column "+analysis['dataset-column']+" is missing.")
 
     # get number of examples (datasets)
-    n_datasets = len(np.unique(np.asarray(df[analysis['dataset-column']])))
+    # n_datasets = len(np.unique(np.asarray(df[analysis['dataset-column']])))
+    n_datasets = len(df.index)
 
     analysis['n-datasets'] = n_datasets # add number of examples to dictionary
 
-    analysis['dataset-names'] = list(df[analysis['dataset-column']]) # add example names to dict
-    
-    df_columns.remove(analysis['dataset-column']) # drop the dataset column name from columns list
-    # and keep classifier names
+    if analysis['dataset-column'] is not None:
+        
+        analysis['dataset-names'] = list(df[analysis['dataset-column']]) # add example names to dict
+        df_columns.remove(analysis['dataset-column']) # drop the dataset column name from columns list
+        # and keep classifier names
 
     classifier_names = df_columns.copy()
     n_classifiers = len(classifier_names)
@@ -164,7 +168,11 @@ def re_order_classifiers(df_results, analysis):
     
     elif analysis['order-stats'] == 'average-rank':
 
-        np_results = np.asarray(df_results.drop([analysis['dataset-column']],axis=1))
+        if analysis['dataset-column'] is not None:
+            np_results = np.asarray(df_results.drop([analysis['dataset-column']],axis=1))
+        else:
+            np_results = np.asarray(df_results)
+            
         df = pd.DataFrame(columns=['classifier-name','values'])
         
         for i, classifier_name in enumerate(analysis['classifier-names']):
diff --git a/main.py b/main.py
@@ -4,21 +4,21 @@
 
 if __name__ == "__main__":
 
-    path_res = './results.csv'
+    path_res = './results_example_no_data_column2.csv'
     output_dir = './'
 
     df_results = pd.read_csv(path_res)
 
     analysis = MCM.get_analysis(df_results=df_results,
                                      save_as_json=True,
                                      plot_1v1_comparisons=False,
-                                     output_dir=output_dir)
+                                     output_dir=output_dir,
+                                     order_stats='average-rank')
     
     MCM.get_heatmap(output_dir=output_dir,
                          colormap='coolwarm',
                          show_symetry=True)
 
-    MCM.get_line_heatmap(proposed_methods=['ROCKET','ResNet'],
-                         disjoint_methods=True,
-                         df_results=df_results,
+    MCM.get_line_heatmap(proposed_methods=['clf1','clf2'],
+                         order_stats='average-rank',
                          output_dir=output_dir)