🧁 Fix metrics: make string percentiles (#76)

ElisovaIra · web-flow · commit c1789b4c7792 · 2021-02-16T22:47:26.000+03:00
* 🍰 Make index percentiles as strings

* 😋 Add str xticks uplift_by_perc

* 📝 Add string_percentiles to docstring

* 📝 Add checker string_percentiles
diff --git a/sklift/metrics/metrics.py b/sklift/metrics/metrics.py
@@ -540,7 +540,8 @@ def weighted_average_uplift(y_true, uplift, treatment, strategy='overall', bins=
     return weighted_avg_uplift
 
 
-def uplift_by_percentile(y_true, uplift, treatment, strategy='overall', bins=10, std=False, total=False):
+def uplift_by_percentile(y_true, uplift, treatment, strategy='overall',
+                         bins=10, std=False, total=False, string_percentiles=True):
     """Compute metrics: uplift, group size, group response rate, standard deviation at each percentile.
 
     Metrics in columns and percentiles in rows of pandas DataFrame:
@@ -571,6 +572,7 @@ def uplift_by_percentile(y_true, uplift, treatment, strategy='overall', bins=10,
             The total uplift is a weighted average uplift. See :func:`.weighted_average_uplift`.
             The total response rate is a response rate on the full data amount.
         bins (int): Determines the number of bins (and the relative percentile) in the data. Default is 10.
+        string_percentiles (bool): type of percentiles in the index: float or string. Default is True (string).
 
     Returns:
         pandas.DataFrame: DataFrame where metrics are by columns and percentiles are by rows.
@@ -602,6 +604,10 @@ def uplift_by_percentile(y_true, uplift, treatment, strategy='overall', bins=10,
     if bins >= n_samples:
         raise ValueError(f'Number of bins = {bins} should be smaller than the length of y_true {n_samples}')
 
+    if not isinstance(string_percentiles, bool):
+        raise ValueError(f'string_percentiles flag should be bool: True or False.'
+                         f' Invalid value string_percentiles: {string_percentiles}')
+
     y_true, uplift, treatment = np.array(y_true), np.array(uplift), np.array(treatment)
 
     response_rate_trmnt, variance_trmnt, n_trmnt = response_rate_by_percentile(
@@ -613,7 +619,12 @@ def uplift_by_percentile(y_true, uplift, treatment, strategy='overall', bins=10,
     uplift_scores = response_rate_trmnt - response_rate_ctrl
     uplift_variance = variance_trmnt + variance_ctrl
 
-    percentiles = [round(p * 100 / bins, 1) for p in range(1, bins + 1)]
+    percentiles = [round(p * 100 / bins) for p in range(1, bins + 1)]
+
+    if string_percentiles:
+        percentiles = [f"0-{percentiles[0]}"] + \
+            [f"{percentiles[i]}-{percentiles[i + 1]}" for i in range(len(percentiles) - 1)]
+
 
     df = pd.DataFrame({
         'percentile': percentiles,
diff --git a/sklift/viz/base.py b/sklift/viz/base.py
@@ -146,7 +146,8 @@ def plot_qini_curve(y_true, uplift, treatment, random=True, perfect=True, negati
     return ax
 
 
-def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kind='line', bins=10):
+def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall',
+                              kind='line', bins=10, string_percentiles=True):
     """Plot uplift score, treatment response rate and control response rate at each percentile.
 
     Treatment response rate ia a target mean in the treatment group.
@@ -175,6 +176,7 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
                 Generates a traditional bar-style plot.
 
         bins (int): Determines а number of bins (and the relative percentile) in the test data. Default is 10.
+        string_percentiles (bool): type of xticks: float or string to plot. Default is True (string).
 
     Returns:
         Object that stores computed values.
@@ -203,8 +205,12 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
         raise ValueError(
             f'Number of bins = {bins} should be smaller than the length of y_true {n_samples}')
 
+    if not isinstance(string_percentiles, bool):
+        raise ValueError(f'string_percentiles flag should be bool: True or False.'
+                         f' Invalid value string_percentiles: {string_percentiles}')
+
     df = uplift_by_percentile(y_true, uplift, treatment, strategy=strategy,
-                              std=True, total=True, bins=bins)
+                              std=True, total=True, bins=bins, string_percentiles=False)
 
     percentiles = df.index[:bins].values.astype(float)
 
@@ -219,7 +225,8 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
 
     uplift_weighted_avg = df.loc['total', 'uplift']
 
-    check_consistent_length(percentiles, response_rate_trmnt, response_rate_ctrl, uplift_score,
+    check_consistent_length(percentiles, response_rate_trmnt,
+                            response_rate_ctrl, uplift_score,
                             std_trmnt, std_ctrl, std_uplift)
 
     if kind == 'line':
@@ -235,7 +242,15 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
 
         if np.amin(uplift_score) < 0:
             axes.axhline(y=0, color='black', linewidth=1)
-        axes.set_xticks(percentiles)
+
+        if string_percentiles:  # string percentiles for plotting
+            percentiles_str = [f"0-{percentiles[0]:.0f}"] + \
+                              [f"{percentiles[i]:.0f}-{percentiles[i + 1]:.0f}" for i in range(len(percentiles) - 1)]
+            axes.set_xticks(percentiles)
+            axes.set_xticklabels(percentiles_str, rotation=45)
+        else:
+            axes.set_xticks(percentiles)
+
         axes.legend(loc='upper right')
         axes.set_title(
             f'Uplift by percentile\nweighted average uplift = {uplift_weighted_avg:.4f}')
@@ -245,8 +260,7 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
 
     else:  # kind == 'bar'
         delta = percentiles[0]
-        fig, axes = plt.subplots(ncols=1, nrows=2, figsize=(
-            8, 6), sharex=True, sharey=True)
+        fig, axes = plt.subplots(ncols=1, nrows=2, figsize=(8, 6), sharex=True, sharey=True)
         fig.text(0.04, 0.5, 'Uplift = treatment response rate - control response rate',
                  va='center', ha='center', rotation='vertical')
 
@@ -263,7 +277,15 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
         axes[0].set_title(
             f'Uplift by percentile\nweighted average uplift = {uplift_weighted_avg:.4f}')
 
-        axes[1].set_xticks(percentiles)
+        if string_percentiles:  # string percentiles for plotting
+            percentiles_str = [f"0-{percentiles[0]:.0f}"] + \
+                          [f"{percentiles[i]:.0f}-{percentiles[i + 1]:.0f}" for i in range(len(percentiles) - 1)]
+            axes[1].set_xticks(percentiles)
+            axes[1].set_xticklabels(percentiles_str, rotation=45)
+
+        else:
+            axes[1].set_xticks(percentiles)
+
         axes[1].legend(loc='upper right')
         axes[1].axhline(y=0, color='black', linewidth=1)
         axes[1].set_xlabel('Percentile')