docs: pattern_based_weighted_mean_metric

anhkhoangoho · anhkhoangoho · commit 86628f1da708 · 2023-06-26T14:59:31.000+02:00
diff --git a/qolmat/benchmark/comparator.py b/qolmat/benchmark/comparator.py
@@ -42,7 +42,8 @@ class Comparator:
         "energy": metrics.sum_energy_distances,
         "frechet": metrics.frechet_distance,
         "dist_corr_pattern": partial(
-            metrics.pattern_based_metric, metric=metrics.distance_correlation_complement
+            metrics.pattern_based_weighted_mean_metric,
+            metric=metrics.distance_correlation_complement,
         ),
     }
 
diff --git a/qolmat/benchmark/metrics.py b/qolmat/benchmark/metrics.py
@@ -861,15 +861,17 @@ def distance_correlation_complement(
     return 1.0 - pd.Series(dcor.distance_correlation(df1.values, df2.values), index=["All"])
 
 
-def pattern_based_metric(
+def pattern_based_weighted_mean_metric(
     df1: pd.DataFrame,
     df2: pd.DataFrame,
     df_mask: pd.DataFrame,
     metric: Callable,
     min_num_row: int = 10,
     **kwargs,
 ) -> pd.Series:
-    """_summary_
+    """Compute a mean score based on missing patterns.
+    Note that for each pattern, a score is returned by the function metric.
+    This code is based on https://www.statsmodels.org/
 
     Parameters
     ----------
@@ -889,7 +891,7 @@ def pattern_based_metric(
     pd.Series
         _description_
     """
-    # Identify all distinct missing data patterns
+    # Identify all distinct missing patterns
     z = 1 + np.log(1 + np.arange(df_mask.shape[1]))
     c = np.dot(df_mask, z)
     row_map: Dict = {}
@@ -902,14 +904,18 @@ def pattern_based_metric(
         row_map[v].append(i)
     patterns = [np.asarray(v) for v in row_map.values()]
     scores = []
+    weights = []
     for pattern in patterns:
         df1_pattern = df1.iloc[pattern].dropna(axis=1)
         if len(df1_pattern.columns) == 0:
             df1_pattern = df1.iloc[pattern].dropna(axis=0)
 
         if len(df1_pattern) >= min_num_row:
             df2_pattern = df2.loc[df1_pattern.index, df1_pattern.columns]
+            weights.append(len(df1_pattern))
+            scores.append(
+                metric(df1_pattern, df2_pattern, ~df1_pattern.isna(), **kwargs).values[0]
+            )
 
-            scores.append(metric(df1_pattern, df2_pattern, ~df1_pattern.isna(), **kwargs))
-
-    return pd.Series(np.mean(scores), index=["All"])
+    weighted_scores = np.array(scores) * np.array(weights)
+    return pd.Series(np.mean(weighted_scores), index=["All"])

Original file line number	Diff line number	Diff line change
`@@ -42,7 +42,8 @@ class Comparator:`
`42`	`42`	`"energy": metrics.sum_energy_distances,`
`43`	`43`	`"frechet": metrics.frechet_distance,`
`44`	`44`	`"dist_corr_pattern": partial(`
`45`		`- metrics.pattern_based_metric, metric=metrics.distance_correlation_complement`
	`45`	`+ metrics.pattern_based_weighted_mean_metric,`
	`46`	`+ metric=metrics.distance_correlation_complement,`
`46`	`47`	`),`
`47`	`48`	`}`
`48`	`49`