now balancing the dataset when one of classes has 0 samples is ignored

x4nth055 · x4nth055 · commit 2a1bd630b905 · 2020-09-02T13:06:27.000+02:00
diff --git a/data_extractor.py b/data_extractor.py
@@ -169,6 +169,11 @@ def _balance_data(self, partition):
                 count.append(len([ e for e in emotions if e == emotion]))
         # get the minimum data samples to balance to
         minimum = min(count)
+        if minimum == 0:
+            # won't balance, otherwise 0 samples will be loaded
+            print("[!] One class has 0 samples, setting balance to False")
+            self.balance = False
+            return
         if self.verbose:
             print("[*] Balancing the dataset to the minimum value:", minimum)
         d = defaultdict(list)
@@ -239,5 +244,6 @@ def load_data(train_desc_files, test_desc_files, audio_config=None, classificati
         "y_train": np.array(audiogen.train_emotions),
         "y_test": np.array(audiogen.test_emotions),
         "train_audio_paths": audiogen.train_audio_paths,
-        "test_audio_paths": audiogen.test_audio_paths
+        "test_audio_paths": audiogen.test_audio_paths,
+        "balance": audiogen.balance,
     }
diff --git a/emotion_recognition.py b/emotion_recognition.py
@@ -148,6 +148,7 @@ def load_data(self):
             self.y_test = result['y_test']
             self.train_audio_paths = result['train_audio_paths']
             self.test_audio_paths = result['test_audio_paths']
+            self.balance = result["balance"]
             if self.verbose:
                 print("[+] Data loaded")
             self.data_loaded = True
@@ -187,14 +188,14 @@ def predict_proba(self, audio_path):
         else:
             raise NotImplementedError("Probability prediction doesn't make sense for regression")
 
-    def grid_search(self, params, n_jobs=2):
+    def grid_search(self, params, n_jobs=2, verbose=1):
         """
         Performs GridSearchCV on `params` passed on the `self.model`
         And returns the tuple: (best_estimator, best_params, best_score).
         """
         score = accuracy_score if self.classification else mean_absolute_error
         grid = GridSearchCV(estimator=self.model, param_grid=params, scoring=make_scorer(score),
-                            n_jobs=n_jobs, verbose=1, cv=3)
+                            n_jobs=n_jobs, verbose=verbose, cv=3)
         grid_result = grid.fit(self.X_train, self.y_train)
         return grid_result.best_estimator_, grid_result.best_params_, grid_result.best_score_