FAI-922 - expose LimeConfig options in LimeExplainer (#138)

tteofili · web-flow · commit 65162d29a5c1 · 2022-12-23T10:25:45.000+01:00
* FAI-922 - expose LimeConfig options in LimeExplainer

* FAI-922 - expose LimeConfig options in LimeExplainer

* FAI-922 - format check
diff --git a/src/trustyai/explainers/lime.py b/src/trustyai/explainers/lime.py
@@ -40,6 +40,7 @@
     PredictionProvider,
     Saliency,
     PerturbationContext,
+    PredictionInputsDataDistribution,
 )
 
 from java.util import Random
@@ -233,14 +234,11 @@ class LimeExplainer:
     feature that describe how strongly said feature contributed to the model's output.
     """
 
-    def __init__(self, samples=10, **kwargs):
+    def __init__(self, **kwargs):
         r"""Initialize the :class:`LimeExplainer`.
 
         Parameters
         ----------
-        samples: int
-            Number of samples to be generated for the local linear model training.
-
         Keyword Arguments:
             * penalise_sparse_balance : bool
                 (default= ``True``) Whether to penalise features that are likely to produce linearly
@@ -260,21 +258,58 @@ def __init__(self, samples=10, **kwargs):
                 process.
             * trackCounterfactuals : bool
                 (default= ``False``) Keep track of produced byproduct counterfactuals during LIME run.
+            * samples: int
+                (default= ``300``) Number of samples to be generated for the local linear model training.
+            * encoding_params: Union[list, tuple]
+                (default= ``(0.07, 0.3)``) Lime encoding parameters, as a tuple/list of two float numbers:
+                - encoding_params[0] is the width of the Gaussian filter for clustering number features.
+                - encoding_params[1] is the threshold for clustering number features.
+            * data_distribution: PredictionInputsDataDistribution
+                (default= ``PredictionInputsDataDistribution([])``) Data distribution used to find better feature perturbations
+            * features: int
+                (default= ``6``) Number of feature to select from the original set of input features
+            * retries: int
+                (default= ``3``) Number of retries performed by LIME to find a separable dataset
+            * dataset_minimum: int
+                (default= ``10``) Minimum number of samples retained by the proximity filter to be acceptable
+            * separable_dataset_ratio: float
+                (default= ``0.1``) Minimum portion of the encoded dataset that needs to have a different label
+            *  kernel_width: float
+                (default= ``0.5``) Width of the proximity kernel
+            * proximity_threshold: float
+                (default= ``0.83``) Proximity threshold used to retain close samples
+            * adapt_dataset_variance: bool
+                (default= ``True``) Whether LIME should try to increase the perturbation variance in subsequent retries
+            * feature_selection: bool
+                (default= ``True``) Whether LIME should generate saliency for to the most important features only
+            * filter_interpretable: bool
+                (default= ``False``) Whether the proximity filter should happen in the interpretable space
 
         """
         self._jrandom = Random()
         self._jrandom.setSeed(kwargs.get("seed", 0))
-
+        ep = kwargs.get("encoding_params", (0.07, 0.3))
         self._lime_config = (
             LimeConfig()
             .withNormalizeWeights(kwargs.get("normalise_weights", False))
             .withPerturbationContext(
                 PerturbationContext(self._jrandom, kwargs.get("perturbations", 1))
             )
-            .withSamples(samples)
-            .withEncodingParams(EncodingParams(0.07, 0.3))
-            .withAdaptiveVariance(True)
+            .withSamples(kwargs.get("samples", 300))
+            .withDataDistribution(
+                kwargs.get("data_distribution", PredictionInputsDataDistribution([]))
+            )
+            .withNoOfFeatures(kwargs.get("features", 6))
+            .withRetries(kwargs.get("retries", 3))
+            .withProximityFilteredDatasetMinimum(kwargs.get("dataset_minimum", 10))
+            .withSeparableDatasetRatio(kwargs.get("separable_dataset_ratio", 0.1))
+            .withProximityKernelWidth(kwargs.get("kernel_width", 0.5))
+            .withProximityThreshold(kwargs.get("proximity_threshold", 0.83))
+            .withEncodingParams(EncodingParams(ep[0], ep[1]))
+            .withAdaptiveVariance(kwargs.get("adapt_dataset_variance", True))
+            .withFeatureSelection(kwargs.get("feature_selection", True))
             .withPenalizeBalanceSparse(kwargs.get("penalise_sparse_balance", True))
+            .withFilterInterpretable(kwargs.get("filter_interpretable", False))
             .withUseWLRLinearModel(kwargs.get("use_wlr_model", True))
             .withTrackCounterfactuals(kwargs.get("track_counterfactuals", False))
         )