add validation target column type in the classification scenario (#2127)

hawestra · web-flow · commit 234c439411ad · 2023-06-27T13:20:16.000-07:00
* add validation for the classification scenario when a user input a float-type target column

* use is_float_dtype

* add check if the float can be converted to integer
diff --git a/responsibleai/responsibleai/rai_insights/rai_insights.py b/responsibleai/responsibleai/rai_insights/rai_insights.py
@@ -566,6 +566,17 @@ def _validate_rai_insights_input_parameters(
                         f"Error finding unique values in column {column}. "
                         "Please check your test data.")
 
+        # Validate that the target column isn't continuous if the
+        # user is running classification scenario
+        # To address error thrown from sklearn here:  # noqa: E501
+        # https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/utils/multiclass.py#L197
+        y_data = train[target_column]
+        if (task_type == ModelTask.CLASSIFICATION and
+                pd.api.types.is_float_dtype(y_data.dtype) and
+                np.any(y_data != y_data.astype(int))):
+            raise UserConfigValidationException(
+                "Target column type must not be continuous "
+                "for classification scenario.")
         # Check if any features exist that are not numeric, datetime, or
         # categorical.
         train_features = train.drop(columns=[target_column]).columns
diff --git a/responsibleai/tests/rai_insights/test_rai_insights_validations.py b/responsibleai/tests/rai_insights/test_rai_insights_validations.py
@@ -190,6 +190,31 @@ def test_validate_categorical_features_not_having_train_features(self):
                 task_type='classification',
                 categorical_features=['not_a_feature'])
 
+    def test_validate_multi_classification_continuous_target_column(self):
+        raw_data = {
+            'Column1': [10, 20, 90, 40, 50],
+            'Column2': [10, 20, 90, 40, 50],
+            'Target': [.1, .2, .9, .4, .5]
+        }
+        data = pd.DataFrame(raw_data)
+        X_data = data.drop(columns=['Target'])
+        X_data[TARGET] = data['Target'].values
+
+        # use valid target data to create the model
+        y_train = np.array([1, 1, 2, 0, 1])
+        model = create_lightgbm_classifier(X_data, y_train)
+
+        with pytest.raises(
+                UserConfigValidationException,
+                match="Target column type must not be continuous "
+                "for classification scenario."):
+            RAIInsights(
+                model=model,
+                train=X_data,
+                test=X_data,
+                target_column=TARGET,
+                task_type='classification')
+
     def test_validate_serializer(self):
         X_train, X_test, y_train, y_test, _, _ = \
             create_cancer_data(return_dataframe=True)