Merge branch 'feature/refactor_imports' into dev

maks-sh · maks-sh · commit c933fa7d55b8 · 2020-05-30T00:19:32.000+03:00
diff --git a/sklift/metrics/metrics.py b/sklift/metrics/metrics.py
@@ -87,10 +87,11 @@ def perfect_uplift_curve(y_true, treatment):
     check_consistent_length(y_true, treatment)
     y_true, treatment = np.array(y_true), np.array(treatment)
 
-    CR_num = np.sum((y_true == 1) & (treatment == 0))  # Control Responders
-    TN_num = np.sum((y_true == 0) & (treatment == 1))  # Treated Non-Responders
+    cr_num = np.sum((y_true == 1) & (treatment == 0))  # Control Responders
+    tn_num = np.sum((y_true == 0) & (treatment == 1))  # Treated Non-Responders
 
-    summand = y_true if CR_num > TN_num else treatment
+    # express an ideal uplift curve through y_true and treatment
+    summand = y_true if cr_num > tn_num else treatment
     perfect_uplift = 2 * (y_true == treatment) + summand
 
     return uplift_curve(y_true, perfect_uplift, treatment)
@@ -227,6 +228,7 @@ def perfect_qini_curve(y_true, treatment, negative_effect=True):
     if not isinstance(negative_effect, bool):
         raise TypeError(f'Negative_effects flag should be bool, got: {type(negative_effect)}')
 
+    # express an ideal uplift curve through y_true and treatment
     if negative_effect:
         x_perfect, y_perfect = qini_curve(
             y_true, y_true * treatment - y_true * (1 - treatment), treatment
diff --git a/sklift/models/models.py b/sklift/models/models.py
@@ -1,9 +1,10 @@
 import warnings
+
 import numpy as np
 import pandas as pd
 from sklearn.base import BaseEstimator
-from sklearn.utils.validation import check_consistent_length
 from sklearn.utils.multiclass import type_of_target
+from sklearn.utils.validation import check_consistent_length
 
 
 class SoloModel(BaseEstimator):
@@ -92,23 +93,23 @@ def fit(self, X, y, treatment, estimator_fit_params=None):
         if self.method == 'dummy':
             if isinstance(X, np.ndarray):
                 X_mod = np.column_stack((X, treatment))
-            elif isinstance(X, pd.core.frame.DataFrame):
+            elif isinstance(X, pd.DataFrame):
                 X_mod = X.assign(treatment=treatment)
             else:
                 raise TypeError("Expected numpy.ndarray or pandas.DataFrame in training vector X, got %s" % type(X))
 
         if self.method == 'treatment_interaction':
             if isinstance(X, np.ndarray):
                 X_mod = np.column_stack((X, np.multiply(X, np.array(treatment).reshape(-1, 1)), treatment))
-            elif isinstance(X, pd.core.frame.DataFrame):
+            elif isinstance(X, pd.DataFrame):
                 X_mod = pd.concat([
                     X,
                     X.apply(lambda x: x * treatment)
                         .rename(columns=lambda x: str(x) + '_treatment_interaction')
-                ], axis=1)\
+                ], axis=1) \
                     .assign(treatment=treatment)
             else:
-                raise TypeError("Expected numpy.ndarray or pandas.DataFrame in training vector X, got %s" % type(X))           
+                raise TypeError("Expected numpy.ndarray or pandas.DataFrame in training vector X, got %s" % type(X))
 
         self._type_of_target = type_of_target(y)
 
@@ -132,7 +133,7 @@ def predict(self, X):
             if isinstance(X, np.ndarray):
                 X_mod_trmnt = np.column_stack((X, np.ones(X.shape[0])))
                 X_mod_ctrl = np.column_stack((X, np.zeros(X.shape[0])))
-            elif isinstance(X, pd.core.frame.DataFrame):
+            elif isinstance(X, pd.DataFrame):
                 X_mod_trmnt = X.assign(treatment=np.ones(X.shape[0]))
                 X_mod_ctrl = X.assign(treatment=np.zeros(X.shape[0]))
             else:
@@ -142,18 +143,18 @@ def predict(self, X):
             if isinstance(X, np.ndarray):
                 X_mod_trmnt = np.column_stack((X, np.multiply(X, np.ones((X.shape[0], 1))), np.ones(X.shape[0])))
                 X_mod_ctrl = np.column_stack((X, np.multiply(X, np.zeros((X.shape[0], 1))), np.zeros(X.shape[0])))
-            elif isinstance(X, pd.core.frame.DataFrame):
+            elif isinstance(X, pd.DataFrame):
                 X_mod_trmnt = pd.concat([
                     X,
                     X.apply(lambda x: x * np.ones(X.shape[0]))
                         .rename(columns=lambda x: str(x) + '_treatment_interaction')
-                ], axis=1)\
+                ], axis=1) \
                     .assign(treatment=np.ones(X.shape[0]))
                 X_mod_ctrl = pd.concat([
                     X,
                     X.apply(lambda x: x * np.zeros(X.shape[0]))
                         .rename(columns=lambda x: str(x) + '_treatment_interaction')
-                ], axis=1)\
+                ], axis=1) \
                     .assign(treatment=np.zeros(X.shape[0]))
             else:
                 raise TypeError("Expected numpy.ndarray or pandas.DataFrame in training vector X, got %s" % type(X))
@@ -208,6 +209,7 @@ class ClassTransformation(BaseEstimator):
     .. _ClassTransformation in documentation:
         https://scikit-uplift.readthedocs.io/en/latest/api/models.html#class-transformation
     """
+
     def __init__(self, estimator):
         self.estimator = estimator
         self._type_of_target = None
diff --git a/sklift/tests/conftest.py b/sklift/tests/conftest.py
@@ -1,9 +1,9 @@
-import numpy as np
-import pandas as pd
 import itertools
 from collections import defaultdict
-import pytest
 
+import numpy as np
+import pandas as pd
+import pytest
 
 n_vals = (100, 1000)
 k_vals = (1, 5)
diff --git a/sklift/tests/test_models.py b/sklift/tests/test_models.py
@@ -2,6 +2,7 @@
 from sklearn.linear_model import LogisticRegression, LinearRegression
 from sklearn.pipeline import Pipeline
 from sklearn.preprocessing import StandardScaler
+
 from ..models import (
     SoloModel,
     ClassTransformation,
diff --git a/sklift/viz/base.py b/sklift/viz/base.py
@@ -5,7 +5,7 @@
 from ..metrics import (
     uplift_curve, perfect_uplift_curve, uplift_auc_score,
     qini_curve, perfect_qini_curve, qini_auc_score,
-    treatment_balance_curve
+    treatment_balance_curve, uplift_by_percentile
 )
 
 
@@ -191,12 +191,16 @@ def plot_uplift_by_percentile(y_true, uplift, treatment, strategy='overall', kin
                               std=True, total=True, bins=bins)
 
     percentiles = df.index[:bins].values.astype(float)
-    response_rate_trmnt, std_trmnt = df.loc[percentiles, 'response_rate_treatment'].values, \
-                                     df.loc[percentiles, 'std_treatment'].values
-    response_rate_ctrl, std_ctrl = df.loc[percentiles, 'response_rate_control'].values, \
-                                   df.loc[percentiles, 'std_control'].values
-    uplift_score, std_uplift = df.loc[percentiles, 'uplift'].values, \
-                               df.loc[percentiles, 'std_uplift'].values
+
+    response_rate_trmnt = df.loc[percentiles, 'response_rate_treatment'].values
+    std_trmnt = df.loc[percentiles, 'std_treatment'].values
+
+    response_rate_ctrl = df.loc[percentiles, 'response_rate_control'].values
+    std_ctrl = df.loc[percentiles, 'std_control'].values
+
+    uplift_score = df.loc[percentiles, 'uplift'].values
+    std_uplift = df.loc[percentiles, 'std_uplift'].values
+
     uplift_weighted_avg = df.loc['total', 'uplift']
 
     check_consistent_length(percentiles, response_rate_trmnt, response_rate_ctrl, uplift_score,