scikit-learn-contrib
diff --git a/‎HISTORY.rst‎
Lines changed: 6 additions & 2 deletions b/‎HISTORY.rst‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎examples/RPCA.md‎
Lines changed: 2 additions & 51 deletions b/‎examples/RPCA.md‎
Lines changed: 2 additions & 51 deletions
diff --git a/‎examples/benchmark.md‎
Lines changed: 58 additions & 27 deletions b/‎examples/benchmark.md‎
Lines changed: 58 additions & 27 deletions
@@ -2,10 +2,14 @@
 History
 =======
 
-0.0.X (2023-0X-XX)
+0.0.15 (2023-??-??)
 -------------------
-* Fix MLP imputer
 
+* Hyperparameters are now optimized in hyperparameters.py, with the maintained module hyperopt
+* The Imputer classes do not possess a dictionary attribute anymore, and all list attributes have
+been changed into tuple attributes so that all are not immutable
+* All the tests from scikit-learn's check_estimator now pass for the class Imputer
+* Fix MLP imputer
 
 0.0.14 (2023-06-14)
 -------------------
 
@@ -6,7 +6,7 @@ jupyter:
       extension: .md
       format_name: markdown
       format_version: '1.3'
-      jupytext_version: 1.14.5
+      jupytext_version: 1.14.4
   kernelspec:
     display_name: Python 3 (ipykernel)
     language: python
@@ -74,7 +74,7 @@ plt.show()
 
 ```python
 %%time
-rpca_pcp = RPCAPCP(period=100, max_iter=5, mu=.5, lam=1)
+rpca_pcp = RPCAPCP(period=100, max_iterations=5, mu=.5, lam=1)
 X, A = rpca_pcp.decompose_rpca_signal(signal)
 imputed = signal - A
 ```
@@ -102,52 +102,3 @@ plt.plot(imputed)
 ```python
 
 ```
-
-```python
-%%time
-signal_toy = np.array([[1, 2], [np.nan, np.nan]])
-rpca_noisy = RPCANoisy(tau=0, lam=1, norm="L2", do_report=True)
-X, A = rpca_noisy.decompose_rpca_signal(signal_toy)
-```
-
-```python
-print(X)
-print(A)
-```
-
-```python
-%%time
-signal_toy = np.array([[1, 2], [np.nan, np.nan]])
-rpca_pcp = RPCAPCP(lam=1e3)
-X, A = rpca_pcp.decompose_rpca_signal(signal_toy)
-```
-
-```python
-X
-```
-
-```python
-A
-```
-
-```python
-np.log(10) / np.log(1.1)
-```
-
-```python
-X = np.array([[1, 2], [4, 4], [4, 3]])
-# Omega = np.array([[True, False], [True, True], [False, True]])
-Omega = np.array([[True, True], [True, True], [True, True]])
-rpca_noisy = RPCANoisy(period=2, max_iter=200, tau=.5, lam=1, do_report=True)
-M_result, A_result, U_result, V_result = rpca_noisy.decompose_rpca_L2(
-    X, Omega=Omega, lam=1, tau=.5, rank=2
-)
-```
-
-```python
-M_result
-```
-
-```python
-
-```
@@ -19,6 +19,18 @@ In Qolmat, a few data imputation methods are implemented as well as a way to eva
 
 First, import some useful librairies
 
+```python
+X= np.array([[0], [1], [2]])
+```
+
+```python
+np.cov(X)
+```
+
+```python
+
+```
+
 ```python
 import warnings
 # warnings.filterwarnings('error')
@@ -116,52 +128,70 @@ ratio_masked = 0.1
 ```
 
 ```python
-imputer_mean = imputers.ImputerMean(groups=["station"])
-imputer_median = imputers.ImputerMedian(groups=["station"])
-imputer_mode = imputers.ImputerMode(groups=["station"])
-imputer_locf = imputers.ImputerLOCF(groups=["station"])
-imputer_nocb = imputers.ImputerNOCB(groups=["station"])
-imputer_interpol = imputers.ImputerInterpolation(groups=["station"], method="linear")
-imputer_spline = imputers.ImputerInterpolation(groups=["station"], method="spline", order=2)
-imputer_shuffle = imputers.ImputerShuffle(groups=["station"])
-imputer_residuals = imputers.ImputerResiduals(groups=["station"], period=365, model_tsa="additive", extrapolate_trend="freq", method_interpolation="linear")
-
-imputer_rpca = imputers.ImputerRPCA(groups=["station"], columnwise=False, max_iter=256, tau=2, lam=1)
-
-imputer_ou = imputers.ImputerEM(groups=["station"], model="multinormal", method="sample", max_iter_em=34, n_iter_ou=15, dt=1e-3)
-imputer_tsou = imputers.ImputerEM(groups=["station"], model="VAR1", method="sample", max_iter_em=34, n_iter_ou=15, dt=1e-3)
-imputer_tsmle = imputers.ImputerEM(groups=["station"], model="VAR1", method="mle", max_iter_em=100, n_iter_ou=15, dt=1e-3)
-
-
-imputer_knn = imputers.ImputerKNN(groups=["station"], k=10)
-imputer_mice = imputers.ImputerMICE(groups=["station"], estimator=LinearRegression(), sample_posterior=False, max_iter=100, missing_values=np.nan)
-imputer_regressor = imputers.ImputerRegressor(groups=["station"], estimator=LinearRegression())
+imputer_mean = imputers.ImputerMean(groups=("station",))
+imputer_median = imputers.ImputerMedian(groups=("station",))
+imputer_mode = imputers.ImputerMode(groups=("station",))
+imputer_locf = imputers.ImputerLOCF(groups=("station",))
+imputer_nocb = imputers.ImputerNOCB(groups=("station",))
+imputer_interpol = imputers.ImputerInterpolation(groups=("station",), method="linear")
+imputer_spline = imputers.ImputerInterpolation(groups=("station",), method="spline", order=2)
+imputer_shuffle = imputers.ImputerShuffle(groups=("station",))
+imputer_residuals = imputers.ImputerResiduals(groups=("station",), period=365, model_tsa="additive", extrapolate_trend="freq", method_interpolation="linear")
+
+imputer_rpca = imputers.ImputerRPCA(groups=("station",), columnwise=False, max_iterations=256, tau=2, lam=1)
+
+imputer_ou = imputers.ImputerEM(groups=("station",), model="multinormal", method="sample", max_iter_em=34, n_iter_ou=15, dt=1e-3)
+imputer_tsou = imputers.ImputerEM(groups=("station",), model="VAR1", method="sample", max_iter_em=34, n_iter_ou=15, dt=1e-3)
+imputer_tsmle = imputers.ImputerEM(groups=("station",), model="VAR1", method="mle", max_iter_em=100, n_iter_ou=15, dt=1e-3)
+
+
+imputer_knn = imputers.ImputerKNN(groups=("station",), n_neighbors=10)
+imputer_mice = imputers.ImputerMICE(groups=("station",), estimator=LinearRegression(), sample_posterior=False, max_iter=100, missing_values=np.nan)
+imputer_regressor = imputers.ImputerRegressor(groups=("station",), estimator=LinearRegression())
 ```
 
 ```python
-generator_holes = missing_patterns.EmpiricalHoleGenerator(n_splits=2, groups=["station"], subset=cols_to_impute, ratio_masked=ratio_masked)
+generator_holes = missing_patterns.EmpiricalHoleGenerator(n_splits=2, groups=("station",), subset=cols_to_impute, ratio_masked=ratio_masked)
 ```
 
 ```python
 dict_config_opti = {
     "tau": ho.hp.uniform("tau", low=.5, high=5),
     "lam": ho.hp.uniform("lam", low=.1, high=1),
 }
-imputer_rpca_opti = imputers.ImputerRPCA(groups=["station"], columnwise=False, max_iter=256)
+imputer_rpca_opti = imputers.ImputerRPCA(groups=("station",), columnwise=False, max_iterations=256)
 imputer_rpca_opti = hyperparameters.optimize(
     imputer_rpca_opti,
     df_data,
     generator = generator_holes,
     metric="mae",
     max_evals=10,
-    dict_config_opti=dict_config_opti
+    dict_spaces=dict_config_opti
 )
 # imputer_rpca_opti.params_optim = hyperparams_opti
 ```
 
+```python
+dict_config_opti2 = {
+    "tau/TEMP": ho.hp.uniform("tau/TEMP", low=.5, high=5),
+    "tau/PRES": ho.hp.uniform("tau/PRES", low=.5, high=5),
+    "lam/TEMP": ho.hp.uniform("lam/TEMP", low=.1, high=1),
+    "lam/PRES": ho.hp.uniform("lam/PRES", low=.1, high=1),
+}
+imputer_rpca_opti2 = imputers.ImputerRPCA(groups=("station",), columnwise=True, max_iterations=256)
+imputer_rpca_opti2 = hyperparameters.optimize(
+    imputer_rpca_opti2,
+    df_data,
+    generator = generator_holes,
+    metric="mae",
+    max_evals=10,
+    dict_spaces=dict_config_opti2
+)
+```
+
 ```python
 dict_imputers = {
-    # "mean": imputer_mean,
+    "mean": imputer_mean,
     # "median": imputer_median,
     # "mode": imputer_mode,
     "interpolation": imputer_interpol,
@@ -171,8 +201,9 @@ dict_imputers = {
     # "OU": imputer_ou,
     "TSOU": imputer_tsou,
     "TSMLE": imputer_tsmle,
-    "RPCA": imputer_rpca,
-    "RPCA_opti": imputer_rpca_opti,
+    # "RPCA": imputer_rpca,
+    # "RPCA_opti": imputer_rpca_opti,
+    # "RPCA_opti2": imputer_rpca_opti2,
     # "locf": imputer_locf,
     # "nocb": imputer_nocb,
     # "knn": imputer_knn,
@@ -308,7 +339,7 @@ for i_col, col in enumerate(cols_to_impute):
         loc = plticker.MultipleLocator(base=2*365)
         ax.xaxis.set_major_locator(loc)
         ax.tick_params(axis='both', which='major')
-        plt.xlim(datetime(2010, 1, 1), datetime(2015, 3, 1))
+        # plt.xlim(datetime(2019, 2, 1), datetime(2019, 3, 1))
         i_plot += 1
 plt.savefig("figures/imputations_benchmark.png")
 plt.show()