🔧 limit scikit learn version to <1.7 (#17)

enryH · web-flow · commit 00a48f214489 · 2025-09-18T21:56:22.000+02:00
* 🔧 limit scikit learn version to &lt;1.7

- parameter names for scoring changed

* 🐛 add data to repo as upstream removed CSVs

* 🎨 format and remove unused argments

* 🐛 fix url

* 🐛 set correct filepath

* 🎨 set link to main branch (needs merge to work)
diff --git a/docs/tutorial/data/prostate/README.md b/docs/tutorial/data/prostate/README.md
@@ -0,0 +1,3 @@
+# Prostate Cancer Dataset
+
+From [SurvSet](https://github.com/ErikinBC/SurvSet)
diff --git a/docs/tutorial/data/prostate/downlaod_data.py b/docs/tutorial/data/prostate/downlaod_data.py
@@ -0,0 +1,19 @@
+# %%
+# pip install SurvSet
+
+# %%
+from pathlib import Path
+
+from SurvSet.data import SurvLoader
+
+loader = SurvLoader()
+# List of available datasets and meta-info
+loader.df_ds.head()
+
+# %%
+df, ref = loader.load_dataset(ds_name='prostate').values()
+
+# %%
+fname = "prostate.csv"
+
+df.to_csv(fname, index=False)
diff --git a/docs/tutorial/data/prostate/prostate.csv b/docs/tutorial/data/prostate/prostate.csv
diff --git a/docs/tutorial/explorative_analysis.ipynb b/docs/tutorial/explorative_analysis.ipynb
@@ -82,7 +82,7 @@
     "TARGET = \"event\"\n",
     "TIME_KM = \"time\"\n",
     "FOLDER = \"prostate\"\n",
-    "CLINIC = \"https://raw.githubusercontent.com/ErikinBC/SurvSet/main/SurvSet/_datagen/output/prostate.csv\"\n",
+    "CLINIC = \"https://raw.githubusercontent.com/RasmussenLab/njab/main/docs/tutorial/data/prostate/prostate.csv\"\n",
     "val_ids: str = \"\"  # List of comma separated values or filepath\n",
     "#\n",
     "# list or string of csv, eg. \"var1,var2\"\n",
diff --git a/docs/tutorial/explorative_analysis.py b/docs/tutorial/explorative_analysis.py
@@ -53,7 +53,7 @@
 TARGET = "event"
 TIME_KM = "time"
 FOLDER = "prostate"
-CLINIC = "https://raw.githubusercontent.com/ErikinBC/SurvSet/main/SurvSet/_datagen/output/prostate.csv"
+CLINIC = "https://raw.githubusercontent.com/RasmussenLab/njab/main/docs/tutorial/data/prostate/prostate.csv"
 val_ids: str = ""  # List of comma separated values or filepath
 #
 # list or string of csv, eg. "var1,var2"
diff --git a/pyproject.toml b/pyproject.toml
@@ -17,7 +17,7 @@ dependencies = [
   "omegaconf",
   "numpy",
   "pandas",
-  "scikit-learn>=1.4",
+  "scikit-learn>=1.4,<1.7",
   "statsmodels",
   "matplotlib",
   "mrmr_selection",
diff --git a/src/njab/stats/ancova.py b/src/njab/stats/ancova.py
@@ -1,17 +1,19 @@
 """Analysis of covariance using pingouin and statsmodels."""
 from __future__ import annotations
+
 import numpy as np
 import pandas as pd
 import pingouin as pg
 import statsmodels
 
 
-def ancova_pg(df_long: pd.DataFrame,
-              feat_col: str,
-              dv: str,
-              between: str,
-              covar: list[str] | str,
-              fdr=0.05) -> pd.DataFrame:
+def ancova_pg(
+    df_long: pd.DataFrame,
+    feat_col: str,
+    dv: str,
+    between: str,
+    covar: list[str] | str,
+) -> pd.DataFrame:
     """ Analysis of covariance (ANCOVA) using pg.ancova
     https://pingouin-stats.org/generated/pingouin.ancova.html
 
@@ -117,7 +119,7 @@ def get_scores(self):
                            covar=self.covar)
         return scores.set_index(feat_col)
 
-    def ancova(self, random_seed=123):
+    def ancova(self):
         raise NotImplementedError
 
 

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+# Prostate Cancer Dataset`
	`2`	`+`
	`3`	`+From [SurvSet](https://github.com/ErikinBC/SurvSet)`
Original file line number	Diff line number	Diff line change
`@@ -53,7 +53,7 @@`
`53`	`53`	`TARGET = "event"`
`54`	`54`	`TIME_KM = "time"`
`55`	`55`	`FOLDER = "prostate"`
`56`		`-CLINIC = "https://raw.githubusercontent.com/ErikinBC/SurvSet/main/SurvSet/_datagen/output/prostate.csv"`
	`56`	`+CLINIC = "https://raw.githubusercontent.com/RasmussenLab/njab/main/docs/tutorial/data/prostate/prostate.csv"`
`57`	`57`	`val_ids: str = "" # List of comma separated values or filepath`
`58`	`58`	`#`
`59`	`59`	`# list or string of csv, eg. "var1,var2"`