Fix probability check + binning in PDTP metric

abigailgold · abigailgold · commit e2678dbf6ef6 · 2022-08-22T15:44:25.000+03:00
Signed-off-by: abigailt &lt;abigailt@il.ibm.com&gt;
diff --git a/art/metrics/privacy/membership_leakage.py b/art/metrics/privacy/membership_leakage.py
@@ -24,7 +24,7 @@
 import numpy as np
 import scipy
 
-from art.utils import check_and_transform_label_format, is_probability
+from art.utils import check_and_transform_label_format, is_probability_array
 
 if TYPE_CHECKING:
     from art.estimators.classification.classifier import Classifier
@@ -77,14 +77,15 @@ def PDTP(  # pylint: disable=C0103
         iter_results = []
         # get probabilities from original model
         pred = target_estimator.predict(x)
-        if not is_probability(pred):
+        if not is_probability_array(pred):
             try:
                 pred = scipy.special.softmax(pred, axis=1)
             except Exception as exc:  # pragma: no cover
                 raise ValueError("PDTP metric only supports classifiers that output logits or probabilities.") from exc
         # divide into 100 bins and return center of bin
         bins = np.array(np.arange(0.0, 1.01, 0.01).round(decimals=2))
         pred_bin_indexes = np.digitize(pred, bins)
+        pred_bin_indexes[pred_bin_indexes==101] = 100
         pred_bin = bins[pred_bin_indexes] - 0.005
 
         if not indexes:
@@ -102,10 +103,11 @@ def PDTP(  # pylint: disable=C0103
             extra_estimator.fit(alt_x, alt_y)
             # get probabilities from new model
             alt_pred = extra_estimator.predict(x)
-            if not is_probability(alt_pred):
+            if not is_probability_array(alt_pred):
                 alt_pred = scipy.special.softmax(alt_pred, axis=1)
             # divide into 100 bins and return center of bin
             alt_pred_bin_indexes = np.digitize(alt_pred, bins)
+            alt_pred_bin_indexes[alt_pred_bin_indexes == 101] = 100
             alt_pred_bin = bins[alt_pred_bin_indexes] - 0.005
             ratio_1 = pred_bin / alt_pred_bin
             ratio_2 = alt_pred_bin / pred_bin
diff --git a/art/utils.py b/art/utils.py
@@ -1562,6 +1562,24 @@ def is_probability(vector: np.ndarray) -> bool:
     return is_sum_1 and is_smaller_1 and is_larger_0
 
 
+def is_probability_array(array: np.ndarray) -> bool:
+    """
+    Check if a multi-dimensional array is an array of probabilities.
+
+    :param vector: A numpy array.
+    :return: True if it is an array of probabilities.
+    """
+    if len(array.shape) == 1:
+        return is_probability(array)
+    sum_array = np.sum(array, axis=1)
+    ones = np.ones_like(sum_array)
+    is_sum_1 = np.allclose(sum_array, ones, rtol=1e-03)
+    is_smaller_1 = np.amax(array) <= 1.0
+    is_larger_0 = np.amin(array) >= 0.0
+
+    return is_sum_1 and is_smaller_1 and is_larger_0
+
+
 def pad_sequence_input(x: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
     """
     Apply padding to a batch of 1-dimensional samples such that it has shape of (batch_size, max_length).