refactor: modAL.density refactored using sklearn.metrics.pairwise

cosmic-cortex · cosmic-cortex · commit d01c5b805e49 · 2018-10-01T13:20:10.000+02:00
diff --git a/modAL/density.py b/modAL/density.py
@@ -1,10 +1,11 @@
 """
 Measures for estimating the information density of a given sample.
 """
-from typing import Callable
+from typing import Callable, Union
 
 import numpy as np
 from scipy.spatial.distance import cosine, euclidean
+from sklearn.metrics.pairwise import pairwise_distances
 
 from modAL.utils.data import modALinput
 
@@ -29,13 +30,13 @@ def sim(*args, **kwargs):
 euclidean_similarity = similarize_distance(euclidean)
 
 
-def information_density(X: modALinput, similarity_measure: Callable = cosine_similarity) -> np.ndarray:
+def information_density(X: modALinput, metric: Union[str, Callable] = 'euclidean') -> np.ndarray:
     """
-    Calculates the information density metric of the given data using the similarity measure given.
+    Calculates the information density metric of the given data using the given metric.
 
     Args:
         X: The data for which the information density is to be calculated.
-        similarity_measure: The similarity measure to be used. Should take two 1d numpy.ndarrays for argument.
+        metric: The metric to be used. Should take two 1d numpy.ndarrays for argument.
 
     Todo:
         Should work with all possible modALinput.
@@ -44,8 +45,12 @@ def information_density(X: modALinput, similarity_measure: Callable = cosine_sim
     Returns:
         The information density for each sample.
     """
-    inf_density = np.zeros(shape=(X.shape[0],))
-    for X_idx, X_inst in enumerate(X):
-        inf_density[X_idx] = sum(similarity_measure(X_inst, X_j) for X_j in X)
+    # inf_density = np.zeros(shape=(X.shape[0],))
+    # for X_idx, X_inst in enumerate(X):
+    #     inf_density[X_idx] = sum(similarity_measure(X_inst, X_j) for X_j in X)
+    #
+    # return inf_density/X.shape[0]
 
-    return inf_density/X.shape[0]
+    similarity_mtx = 1/(1+pairwise_distances(X, X, metric=metric))
+
+    return similarity_mtx.mean(axis=1)