Adjust benchmarking code to changed interfaces (#515)

StaniszewskiA · web-flow · commit f64ab2e7c5d6 · 2026-01-22T19:05:31.000+01:00
diff --git a/benchmarking/benchmark.py b/benchmarking/benchmark.py
@@ -6,16 +6,13 @@
 import matplotlib as mpl
 import matplotlib.pyplot as plt
 import numpy as np
-import pandas as pd
 import skfp.fingerprints as fps
 from joblib import cpu_count
-from ogb.graphproppred import GraphPropPredDataset
+from skfp.datasets.moleculenet import load_hiv
 from skfp.preprocessing import ConformerGenerator, MolFromSmilesTransformer
 
 mpl.rcParams.update({"font.size": 18})
 
-DATASET_NAME = "ogbg-molhiv"
-
 # N_SPLITS - number of parts in which the dataset will be divided.
 # the test is performed first on 1 of them, then 2, ... then N_SPLITS
 # testing different sizes of input data
@@ -160,17 +157,13 @@ def make_combined_plot(
     if not os.path.exists(SCORE_DIR):
         os.makedirs(SCORE_DIR)
 
-    GraphPropPredDataset(name=DATASET_NAME, root=os.path.join("..", "dataset"))
-    dataset_path = os.path.join(
-        "..", "dataset", "_".join(DATASET_NAME.split("-")), "mapping", "mol.csv.gz"
-    )
-    dataset = pd.read_csv(dataset_path)
+    dataset = load_hiv()
 
     if os.path.exists("mols_with_conformers.npy"):
         X = np.load("mols_with_conformers.npy", allow_pickle=True)
     else:
         X = dataset["smiles"][:10000]
-        X = MolFromSmilesTransformer().transform(X)
+        X = MolFromSmilesTransformer(valid_only=True).transform(X)
         X = ConformerGenerator(n_jobs=-1, errors="filter").transform(X)
         X = np.array(X)
         np.save("mols_with_conformers.npy", X, allow_pickle=True)
diff --git a/benchmarking/fp_tuning.py b/benchmarking/fp_tuning.py
@@ -1,9 +1,8 @@
 import numpy as np
 import skfp.fingerprints as fps
-from ogb.graphproppred import GraphPropPredDataset
 from rdkit.Chem import Mol
 from skfp.bases import BaseFingerprintTransformer
-from skfp.datasets.moleculenet import load_moleculenet_benchmark
+from skfp.datasets.moleculenet import load_moleculenet_benchmark, load_ogb_splits
 from skfp.preprocessing import MolFromSmilesTransformer
 from skfp.utils import no_rdkit_logs
 from sklearn.ensemble import RandomForestClassifier
@@ -42,7 +41,7 @@ def fp_name_to_fp(fp_name: str) -> tuple[BaseFingerprintTransformer, dict]:
         fingerprint = fps.EStateFingerprint(n_jobs=-1)
         fp_params_grid = {"variant": ["sum", "bit", "count"]}
     elif fp_name == "FCFP":
-        fingerprint = fps.ECFPFingerprint(use_fcfp=True, n_jobs=-1)
+        fingerprint = fps.ECFPFingerprint(use_pharmacophoric_invariants=True, n_jobs=-1)
         fp_params_grid = {
             "fp_size": [1024, 2048, 4096],
             "radius": [2, 3],
@@ -78,7 +77,7 @@ def fp_name_to_fp(fp_name: str) -> tuple[BaseFingerprintTransformer, dict]:
         fp_params_grid = {
             "fp_size": [512, 1024, 2048],
             "radius": [2, 3],
-            "variant": ["bit", "count"],
+            "count": [False, True],
         }
     elif fp_name == "Pattern":
         fingerprint = fps.PatternFingerprint()
@@ -157,13 +156,9 @@ def train_and_tune_fp_classifier(
         print("DATASET", dataset_name)
         X = np.array(X)
 
-        dataset = GraphPropPredDataset(
-            name=f"ogbg-mol{dataset_name.lower()}", root=".tmp"
-        )
-        split_idx = dataset.get_idx_split()
+        train_idxs, valid_idxs, test_idxs = load_ogb_splits(dataset_name)
 
-        train_idxs = list(split_idx["train"]) + list(split_idx["valid"])
-        test_idxs = list(split_idx["test"])
+        train_idxs = list(train_idxs) + list(valid_idxs)
 
         smiles_train = X[train_idxs]
         smiles_test = X[test_idxs]
@@ -206,6 +201,7 @@ def train_and_tune_fp_classifier(
                     fp=fp,
                     fp_params_grid=fp_params_grid,
                 )
+
             print(
                 f"AUROC default {auroc_default:.1%}, tuned {auroc_tuned:.1%}, diff: {diff:.1%}"
             )
diff --git a/skfp/bases/base_fp_transformer.py b/skfp/bases/base_fp_transformer.py
@@ -271,8 +271,11 @@ def _hash_fingerprint_bits(
             )
 
         shape = (len(X), fp_size)
-        dtype = np.uint32 if count else np.uint8
-        arr = dok_array(shape, dtype=dtype) if sparse else np.zeros(shape, dtype=dtype)
+        arr = (
+            dok_array(shape, dtype=np.uint32)
+            if sparse
+            else np.zeros(shape, dtype=np.uint32)
+        )
 
         if isinstance(X[0], SparseBitVect):
             for idx, x in enumerate(X):