ruff fixes

schnamo · schnamo · commit 81f8025fbbe1 · 2025-11-13T18:02:28.000+01:00
diff --git a/chebai/preprocessing/datasets/molecule_classification.py b/chebai/preprocessing/datasets/molecule_classification.py
@@ -1,28 +1,20 @@
-from tempfile import NamedTemporaryFile, TemporaryDirectory
+from tempfile import NamedTemporaryFile
 from urllib import request
 import csv
 import gzip
 import os
-import random
 import shutil
-import zipfile
-from typing import Dict, Generator, List, Optional
+from typing import Dict, List
 
-from rdkit import Chem
 from sklearn.model_selection import (
     GroupShuffleSplit,
     train_test_split,
-    StratifiedShuffleSplit,
 )
 import numpy as np
-import pysmiles
 import torch
-from sklearn.preprocessing import LabelBinarizer
 
 from chebai.preprocessing import reader as dr
-from chebai.preprocessing.datasets.base import MergedDataset, XYBaseDataModule
-from chebai.preprocessing.datasets.chebi import JCIExtendedTokenData
-from chebai.preprocessing.datasets.pubchem import Hazardous
+from chebai.preprocessing.datasets.base import XYBaseDataModule
 
 
 class ClinTox(XYBaseDataModule):
@@ -76,7 +68,7 @@ def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
         data = list(
-            self._load_data_from_file(os.path.join(self.raw_dir, f"clintox.csv"))
+            self._load_data_from_file(os.path.join(self.raw_dir, "clintox.csv"))
         )
         groups = np.array([d["group"] for d in data])
         if not all(g is None for g in groups):
@@ -229,14 +221,14 @@ def download(self) -> None:
         """Downloads and extracts the dataset."""
         with open(os.path.join(self.raw_dir, "bbbp.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/BBBP.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/BBBP.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"bbbp.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "bbbp.csv")))
         groups = np.array([d["group"] for d in data])
         if not all(g is None for g in groups):
             print("Group shuffled")
@@ -426,7 +418,7 @@ def download(self) -> None:
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"sider.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "sider.csv")))
         groups = np.array([d["group"] for d in data])
         if not all(g is None for g in groups):
             split_size = int(
@@ -581,14 +573,14 @@ def download(self) -> None:
         """Downloads and extracts the dataset."""
         with open(os.path.join(self.raw_dir, "bace.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/bace.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/bace.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"bace.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "bace.csv")))
         # groups = np.array([d.get("group") for d in data])
 
         # if not all(g is None for g in groups):
@@ -729,14 +721,14 @@ def download(self) -> None:
         """Downloads and extracts the dataset."""
         with open(os.path.join(self.raw_dir, "hiv.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/HIV.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/HIV.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"hiv.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "hiv.csv")))
         groups = np.array([d["group"] for d in data])
         if not all(g is None for g in groups):
             print("Group shuffled")
@@ -913,7 +905,7 @@ def download(self) -> None:
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"muv.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "muv.csv")))
         groups = np.array([d["group"] for d in data])
         if not all(g is None for g in groups):
             split_size = int(
diff --git a/chebai/preprocessing/datasets/molecule_regression.py b/chebai/preprocessing/datasets/molecule_regression.py
@@ -1,24 +1,14 @@
-from tempfile import NamedTemporaryFile, TemporaryDirectory
 from urllib import request
 import csv
-import gzip
 import os
-import random
 import shutil
-import zipfile
-from typing import Dict, Generator, List, Optional
+from typing import Dict, List
 
-from rdkit import Chem
-from sklearn.model_selection import GroupShuffleSplit, train_test_split
-import numpy as np
-import pysmiles
+from sklearn.model_selection import train_test_split
 import torch
-from sklearn.preprocessing import LabelBinarizer
 
 from chebai.preprocessing import reader as dr
-from chebai.preprocessing.datasets.base import MergedDataset, XYBaseDataModule
-from chebai.preprocessing.datasets.chebi import JCIExtendedTokenData
-from chebai.preprocessing.datasets.pubchem import Hazardous
+from chebai.preprocessing.datasets.base import XYBaseDataModule
 
 
 class Lipo(XYBaseDataModule):
@@ -54,13 +44,13 @@ def download(self):
         # download
         with open(os.path.join(self.raw_dir, "Lipo.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/Lipophilicity.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/Lipophilicity.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self):
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"Lipo.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "Lipo.csv")))
         print(len(data))
 
         train_split, test_split = train_test_split(
@@ -189,14 +179,14 @@ def download(self):
         # download
         with open(os.path.join(self.raw_dir, "FreeSolv.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/SAMPL.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/SAMPL.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self):
         print("Create splits")
         data = list(
-            self._load_data_from_file(os.path.join(self.raw_dir, f"FreeSolv.csv"))
+            self._load_data_from_file(os.path.join(self.raw_dir, "FreeSolv.csv"))
         )
         print(len(data))
         train_split, test_split = train_test_split(
diff --git a/chebai/preprocessing/datasets/solCuration.py b/chebai/preprocessing/datasets/solCuration.py
@@ -1,24 +1,14 @@
-from tempfile import NamedTemporaryFile, TemporaryDirectory
 from urllib import request
 import csv
-import gzip
 import os
-import random
 import shutil
-import zipfile
-from typing import Dict, Generator, List, Optional
+from typing import Dict, List
 
-from rdkit import Chem
-from sklearn.model_selection import GroupShuffleSplit, train_test_split
-import numpy as np
-import pysmiles
+from sklearn.model_selection import train_test_split
 import torch
-from sklearn.preprocessing import LabelBinarizer
 
 from chebai.preprocessing import reader as dr
-from chebai.preprocessing.datasets.base import MergedDataset, XYBaseDataModule
-from chebai.preprocessing.datasets.chebi import JCIExtendedTokenData
-from chebai.preprocessing.datasets.pubchem import Hazardous
+from chebai.preprocessing.datasets.base import XYBaseDataModule
 
 
 class SolCuration(XYBaseDataModule):
@@ -65,7 +55,7 @@ def download(self):
     def setup_processed(self):
         print("Create splits")
         data = list(
-            self._load_data_from_file(os.path.join(self.raw_dir, f"solCuration.csv"))
+            self._load_data_from_file(os.path.join(self.raw_dir, "solCuration.csv"))
         )
         print(len(data))
 
@@ -144,7 +134,7 @@ def _load_data_from_file(self, input_file_path: str) -> List[Dict]:
         with open(input_file_path, "r") as input_file:
             reader = csv.DictReader(input_file)
             for row in reader:
-                if not row["smiles"] in smiles_l:
+                if row["smiles"] not in smiles_l:
                     smiles_l.append(row["smiles"])
                     labels_l.append(float(row["logS"]))
         # print(len(smiles_l), len(labels_l))
@@ -204,14 +194,14 @@ def download(self):
         # download
         with open(os.path.join(self.raw_dir, "solESOL.csv"), "ab") as dst:
             with request.urlopen(
-                f"https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/delaney-processed.csv",
+                "https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/delaney-processed.csv",
             ) as src:
                 shutil.copyfileobj(src, dst)
 
     def setup_processed(self):
         print("Create splits")
         data = list(
-            self._load_data_from_file(os.path.join(self.raw_dir, f"solESOL.csv"))
+            self._load_data_from_file(os.path.join(self.raw_dir, "solESOL.csv"))
         )
         print(len(data))
 
diff --git a/chebai/preprocessing/datasets/tox21.py b/chebai/preprocessing/datasets/tox21.py
@@ -13,7 +13,6 @@
 from sklearn.model_selection import (
     GroupShuffleSplit,
     train_test_split,
-    StratifiedShuffleSplit,
 )
 
 from chebai.preprocessing import reader as dr
@@ -75,7 +74,7 @@ def download(self) -> None:
     def setup_processed(self) -> None:
         """Processes and splits the dataset."""
         print("Create splits")
-        data = list(self._load_data_from_file(os.path.join(self.raw_dir, f"tox21.csv")))
+        data = list(self._load_data_from_file(os.path.join(self.raw_dir, "tox21.csv")))
         groups = np.array([d.get("group") for d in data])
 
         if not all(g is None for g in groups):
diff --git a/chebai/result/regression.py b/chebai/result/regression.py
@@ -1,8 +1,4 @@
-from typing import List
 
-import matplotlib.pyplot as plt
-import pandas as pd
-import seaborn as sns
 from torch import Tensor
 from torchmetrics.regression import (
     MeanSquaredError,
diff --git a/chebai/result/utils.py b/chebai/result/utils.py
@@ -234,7 +234,7 @@ def evaluate_model_regression(
     save_batch_size = 128
     n_saved = 1
 
-    print(f"")
+    print("")
     for i in tqdm.tqdm(range(0, len(data_list), batch_size)):
         if not (
             skip_existing_preds
@@ -333,7 +333,7 @@ def evaluate_model_regression_attention(
     save_batch_size = 128
     n_saved = 1
 
-    print(f"")
+    print("")
     for i in tqdm.tqdm(range(0, len(data_list), batch_size)):
         if not (
             skip_existing_preds
@@ -434,7 +434,7 @@ def evaluate_model_regression(
     save_batch_size = 128
     n_saved = 1
 
-    print(f"")
+    print("")
     for i in tqdm.tqdm(range(0, len(data_list), batch_size)):
         if not (
             skip_existing_preds
@@ -533,7 +533,7 @@ def evaluate_model_regression_attention(
     save_batch_size = 128
     n_saved = 1
 
-    print(f"")
+    print("")
     for i in tqdm.tqdm(range(0, len(data_list), batch_size)):
         if not (
             skip_existing_preds