Remove unecesary function from utils

lionelkusch · lionelkusch · commit fd655432832e · 2025-03-07T10:48:50.000+01:00
diff --git a/src/hidimstat/utils.py b/src/hidimstat/utils.py
@@ -1,4 +1,3 @@
-import copy
 import numpy as np
 
 
@@ -326,118 +325,4 @@ def _alpha_max(X, y, use_noise_estimate=False):
 
         alpha_max = np.max(np.abs(np.dot(X.T, y)) / (n_samples * sigma_star))
 
-    return alpha_max
-
-
-########################### Data Preprocessing ##########################
-def create_X_y(
-    X,
-    y,
-    sampling_with_repetition=True,
-    split_percentage=0.8,
-    problem_type="regression",
-    list_continuous=None,
-    random_state=None,
-):
-    """
-    Create train/valid split of input data X and target variable y
-
-    Parameters
-    ----------
-    X : {array-like, sparse matrix} of shape (n_samples, n_features)
-        The input samples before the splitting process.
-    y : ndarray, shape (n_samples, )
-        The output samples before the splitting process.
-    sampling_with_repetition : bool, default=True
-        Sampling with repetition the train part of the train/valid scheme under
-        the training set. The number of training samples in train is equal to
-        the number of instances in the training set.
-    split_percentage : float, default=0.8
-        The training/validation cut for the provided data.
-    problem_type : str, default='regression'
-        A classification or a regression problem.
-    list_continuous : list, default=[]
-        The list of continuous variables.
-    random_state : int, default=2023
-        Fixing the seeds of the random generator.
-
-    Returns
-    -------
-    X_train_scaled : {array-like, sparse matrix} of shape (n_train_samples, n_features)
-        The training input samples with scaled continuous variables.
-    y_train_scaled : {array-like} of shape (n_train_samples, )
-        The sampling_with_repetitionped training output samples scaled if continous.
-    X_validation_scaled : {array-like, sparse matrix} of shape (n_validation_samples, n_features)
-        The validation input samples with scaled continuous variables.
-    y_validation_scaled : {array-like} of shape (n_validation_samples, )
-        The validation output samples scaled if continous.
-    X_scaled : {array-like, sparse matrix} of shape (n_samples, n_features)
-        The original input samples with scaled continuous variables.
-    y_validation : {array-like} of shape (n_samples, )
-        The original output samples with validation indices.
-    scaler_x : Scikit-learn StandardScaler
-        The standard scaler encoder for the continuous variables of the input.
-    scaler_y : Scikit-learn StandardScaler
-        The standard scaler encoder for the output if continuous.
-    valid_ind : list
-        The list of indices of the validation set.
-    """
-    rng = np.random.RandomState(random_state)
-    scaler_x, scaler_y = StandardScaler(), StandardScaler()
-    n = X.shape[0]
-
-    if sampling_with_repetition:
-        train_ind = rng.choice(n, n, replace=True)
-    else:
-        train_ind = rng.choice(
-            n, size=int(np.floor(split_percentage * n)), replace=False
-        )
-    valid_ind = np.array([ind for ind in range(n) if ind not in train_ind])
-
-    X_train, X_validation = X[train_ind], X[valid_ind]
-    y_train, y_validation = y[train_ind], y[valid_ind]
-
-    # Scaling X and y
-    X_train_scaled = X_train.copy()
-    X_validation_scaled = X_validation.copy()
-    X_scaled = X.copy()
-
-    if len(list_continuous) > 0:
-        X_train_scaled[:, list_continuous] = scaler_x.fit_transform(
-            X_train[:, list_continuous]
-        )
-        X_validation_scaled[:, list_continuous] = scaler_x.transform(
-            X_validation[:, list_continuous]
-        )
-        X_scaled[:, list_continuous] = scaler_x.transform(X[:, list_continuous])
-    if problem_type == "regression":
-        y_train_scaled = scaler_y.fit_transform(y_train)
-        y_validation_scaled = scaler_y.transform(y_validation)
-    else:
-        y_train_scaled = y_train.copy()
-        y_validation_scaled = y_validation.copy()
-
-    return (
-        X_train_scaled,
-        y_train_scaled,
-        X_validation_scaled,
-        y_validation_scaled,
-        X_scaled,
-        y_validation,
-        scaler_x,
-        scaler_y,
-        valid_ind,
-    )
-
-
-def _check_vim_predict_method(method):
-    """Check if the method is a valid method for variable importance measure
-    prediction"""
-    if method in ["predict", "predict_proba", "decision_function", "transform"]:
-        return method
-    else:
-        raise ValueError(
-            "The method {} is not a valid method for variable importance measure prediction".format(
-                method
-            )
-        )
+    return alpha_max