Updates tests to consistently use the seeded NumPy random number

mohamed-laarej · mohamed-laarej · commit e7ef1206e03c · 2025-05-01T17:07:54.000+01:00
generator (rng) instead of legacy np.random or Python's random module and unpins the NumPy version in pyproject.toml
diff --git a/pyproject.toml b/pyproject.toml
@@ -21,7 +21,7 @@ license = "MIT"
 
 [tool.poetry.dependencies]
 python = ">=3.10,<3.13"
-numpy = "<2.2"
+numpy = "*"
 numba = ">=0.60.0"
 llvmlite = "*"
 scipy = "*"
diff --git a/tests/anoph/test_cnv_frq.py b/tests/anoph/test_cnv_frq.py
@@ -19,6 +19,8 @@
     check_plot_frequencies_interactive_map,
 )
 
+rng = np.random.default_rng(seed=42)
+
 
 @pytest.fixture
 def ag3_sim_api(ag3_sim_fixture):
@@ -97,7 +99,7 @@ def test_gene_cnv_frequencies_with_str_cohorts(
     region = random.choice(api.contigs)
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = random.choice(all_sample_sets)
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
 
     # Set up call params.
     params = dict(
@@ -302,7 +304,7 @@ def test_gene_cnv_frequencies_with_dict_cohorts(
 ):
     # Pick test parameters at random.
     sample_sets = None  # all sample sets
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
     region = random.choice(api.contigs)
 
     # Create cohorts by country.
@@ -343,7 +345,7 @@ def test_gene_cnv_frequencies_without_drop_invariant(
     # Pick test parameters at random.
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = random.choice(all_sample_sets)
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
     region = random.choice(api.contigs)
     cohorts = random.choice(["admin1_year", "admin2_month", "country"])
 
@@ -398,7 +400,7 @@ def test_gene_cnv_frequencies_with_bad_region(
     # Pick test parameters at random.
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = random.choice(all_sample_sets)
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
     cohorts = random.choice(["admin1_year", "admin2_month", "country"])
 
     # Set up call params.
@@ -718,7 +720,7 @@ def check_gene_cnv_frequencies_advanced(
         all_sample_sets = api.sample_sets()["sample_set"].to_list()
         sample_sets = random.choice(all_sample_sets)
     if min_cohort_size is None:
-        min_cohort_size = random.randint(0, 2)
+        min_cohort_size = rng.integers(0, 2)
 
     # Run function under test.
     ds = api.gene_cnv_frequencies_advanced(
diff --git a/tests/anoph/test_distance.py b/tests/anoph/test_distance.py
@@ -11,6 +11,9 @@
 from malariagen_data.anoph import pca_params
 
 
+rng = np.random.default_rng(seed=42)
+
+
 @pytest.fixture
 def ag3_sim_api(ag3_sim_fixture):
     return AnophelesDistanceAnalysis(
@@ -81,7 +84,7 @@ def check_biallelic_diplotype_pairwise_distance(*, api, data_params, metric):
     ds = api.biallelic_snp_calls(**data_params)
     n_samples = ds.sizes["samples"]
     n_snps_available = ds.sizes["variants"]
-    n_snps = random.randint(4, n_snps_available)
+    n_snps = rng.integers(4, n_snps_available)
 
     # Run the distance computation.
     dist, samples, n_snps_used = api.biallelic_diplotype_pairwise_distances(
@@ -143,7 +146,7 @@ def check_njt(*, api, data_params, metric, algorithm):
     ds = api.biallelic_snp_calls(**data_params)
     n_samples = ds.sizes["samples"]
     n_snps_available = ds.sizes["variants"]
-    n_snps = random.randint(4, n_snps_available)
+    n_snps = rng.integers(4, n_snps_available)
 
     # Run the distance computation.
     Z, samples, n_snps_used = api.njt(
@@ -232,7 +235,7 @@ def test_plot_njt(fixture, api: AnophelesDistanceAnalysis):
     # Check available data.
     ds = api.biallelic_snp_calls(**data_params)
     n_snps_available = ds.sizes["variants"]
-    n_snps = random.randint(4, n_snps_available)
+    n_snps = rng.integers(4, n_snps_available)
 
     # Exercise the function.
     for color, symbol in zip(colors, symbols):
diff --git a/tests/anoph/test_frq.py b/tests/anoph/test_frq.py
@@ -1,8 +1,10 @@
 import pytest
 import plotly.graph_objects as go  # type: ignore
-
+import numpy as np
 import random
 
+rng = np.random.default_rng(seed=42)
+
 
 def check_plot_frequencies_heatmap(api, frq_df):
     fig = api.plot_frequencies_heatmap(frq_df, show=False, max_len=None)
@@ -65,7 +67,7 @@ def check_plot_frequencies_time_series_with_areas(api, ds):
     # Pick a random area and areas from valid areas.
     cohorts_areas = df_cohorts["cohort_area"].dropna().unique().tolist()
     area = random.choice(cohorts_areas)
-    areas = random.sample(cohorts_areas, random.randint(1, len(cohorts_areas)))
+    areas = random.sample(cohorts_areas, rng.integers(1, len(cohorts_areas)))
 
     # Plot with area.
     fig = api.plot_frequencies_time_series(ds, show=False, areas=area)
diff --git a/tests/anoph/test_fst.py b/tests/anoph/test_fst.py
@@ -11,6 +11,8 @@
 from malariagen_data import ag3 as _ag3
 from malariagen_data.anoph.fst import AnophelesFstAnalysis
 
+rng = np.random.default_rng(seed=42)
+
 
 @pytest.fixture
 def ag3_sim_api(ag3_sim_fixture):
@@ -91,7 +93,7 @@ def test_fst_gwss(fixture, api: AnophelesFstAnalysis):
         cohort1_query=cohort1_query,
         cohort2_query=cohort2_query,
         site_mask=random.choice(api.site_mask_ids),
-        window_size=random.randint(10, 50),
+        window_size=rng.integers(10, 50),
         min_cohort_size=1,
     )
 
@@ -131,7 +133,7 @@ def test_average_fst(fixture, api: AnophelesFstAnalysis):
         cohort2_query=cohort2_query,
         site_mask=random.choice(api.site_mask_ids),
         min_cohort_size=1,
-        n_jack=random.randint(10, 200),
+        n_jack=rng.integers(10, 200),
     )
 
     # Run main gwss function under test.
@@ -229,7 +231,7 @@ def test_pairwise_average_fst_with_str_cohorts(
         sample_sets=all_sample_sets,
         site_mask=site_mask,
         min_cohort_size=1,
-        n_jack=random.randint(10, 200),
+        n_jack=rng.integers(10, 200),
     )
 
     # Run checks.
@@ -249,7 +251,7 @@ def test_pairwise_average_fst_with_min_cohort_size(fixture, api: AnophelesFstAna
         sample_sets=all_sample_sets,
         site_mask=site_mask,
         min_cohort_size=15,
-        n_jack=random.randint(10, 200),
+        n_jack=rng.integers(10, 200),
     )
 
     # Run checks.
@@ -270,7 +272,7 @@ def test_pairwise_average_fst_with_dict_cohorts(fixture, api: AnophelesFstAnalys
         sample_sets=all_sample_sets,
         site_mask=site_mask,
         min_cohort_size=1,
-        n_jack=random.randint(10, 200),
+        n_jack=rng.integers(10, 200),
     )
 
     # Run checks.
@@ -294,7 +296,7 @@ def test_pairwise_average_fst_with_sample_query(fixture, api: AnophelesFstAnalys
         sample_query=sample_query,
         site_mask=site_mask,
         min_cohort_size=1,
-        n_jack=random.randint(10, 200),
+        n_jack=rng.integers(10, 200),
     )
 
     # Run checks.
diff --git a/tests/anoph/test_g123.py b/tests/anoph/test_g123.py
@@ -108,7 +108,7 @@ def test_g123_gwss_with_default_sites(fixture, api: AnophelesG123Analysis):
     g123_params = dict(
         contig=random.choice(api.contigs),
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=10,
     )
 
@@ -124,7 +124,7 @@ def test_g123_gwss_with_phased_sites(fixture, api: AnophelesG123Analysis):
         contig=random.choice(api.contigs),
         sites=random.choice(api.phasing_analysis_ids),
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=10,
     )
 
@@ -141,7 +141,7 @@ def test_g123_gwss_with_segregating_sites(fixture, api: AnophelesG123Analysis):
         sites="segregating",
         site_mask=random.choice(api.site_mask_ids),
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=10,
     )
 
@@ -158,7 +158,7 @@ def test_g123_gwss_with_all_sites(fixture, api: AnophelesG123Analysis):
         sites="all",
         site_mask=None,
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=10,
     )
 
@@ -173,7 +173,7 @@ def test_g123_gwss_with_bad_sites(fixture, api: AnophelesG123Analysis):
     g123_params = dict(
         contig=random.choice(api.contigs),
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=10,
         sites="foobar",
     )
@@ -205,7 +205,7 @@ def extract_ints(item):
 def test_g123_calibration(fixture, api: AnophelesG123Analysis):
     # Set up test parameters.
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
-    window_sizes = rng.integers(100, 500, size=random.randint(2, 5)).tolist()
+    window_sizes = rng.integers(100, 500, size=rng.integers(2, 5)).tolist()
     window_sizes = sorted(ensure_int_list(window_sizes))
     g123_params = dict(
         contig=rng.choice(api.contigs),
diff --git a/tests/anoph/test_h12.py b/tests/anoph/test_h12.py
@@ -125,7 +125,7 @@ def extract_ints(item):
 def test_h12_calibration(fixture, api: AnophelesH12Analysis):
     # Set up test parameters.
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
-    window_sizes = rng.integers(100, 500, size=random.randint(2, 5)).tolist()
+    window_sizes = rng.integers(100, 500, size=rng.integers(2, 5)).tolist()
     # Convert window_sizes to a flattened list of integers
     window_sizes = sorted(set(ensure_int_list(window_sizes)))
     h12_params = dict(
@@ -194,7 +194,7 @@ def test_h12_gwss_with_default_analysis(fixture, api: AnophelesH12Analysis):
     h12_params = dict(
         contig=random.choice(api.contigs),
         sample_sets=[random.choice(all_sample_sets)],
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=5,
     )
 
@@ -208,7 +208,7 @@ def test_h12_gwss_with_analysis(fixture, api: AnophelesH12Analysis):
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = [random.choice(all_sample_sets)]
     contig = random.choice(api.contigs)
-    window_size = random.randint(100, 500)
+    window_size = rng.integers(100, 500)
 
     for analysis in api.phasing_analysis_ids:
         # Check if any samples available for the given phasing analysis.
@@ -262,7 +262,7 @@ def test_h12_gwss_multi_with_default_analysis(fixture, api: AnophelesH12Analysis
     h12_params = dict(
         contig=random.choice(api.contigs),
         sample_sets=all_sample_sets,
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=1,
         cohorts={"cohort1": cohort1_query, "cohort2": cohort2_query},
     )
@@ -283,8 +283,8 @@ def test_h12_gwss_multi_with_window_size_dict(fixture, api: AnophelesH12Analysis
         contig=random.choice(api.contigs),
         sample_sets=all_sample_sets,
         window_size={
-            "cohort1": random.randint(100, 500),
-            "cohort2": random.randint(100, 500),
+            "cohort1": rng.integers(100, 500),
+            "cohort2": rng.integers(100, 500),
         },
         min_cohort_size=1,
         cohorts={"cohort1": cohort1_query, "cohort2": cohort2_query},
@@ -335,7 +335,7 @@ def test_h12_gwss_multi_with_analysis(fixture, api: AnophelesH12Analysis):
                 analysis=analysis,
                 contig=contig,
                 sample_sets=all_sample_sets,
-                window_size=random.randint(100, 500),
+                window_size=rng.integers(100, 500),
                 min_cohort_size=min(n1, n2),
                 cohorts={"cohort1": cohort1_query, "cohort2": cohort2_query},
             )
diff --git a/tests/anoph/test_h1x.py b/tests/anoph/test_h1x.py
@@ -9,6 +9,8 @@
 from malariagen_data import ag3 as _ag3
 from malariagen_data.anoph.h1x import AnophelesH1XAnalysis, haplotype_joint_frequencies
 
+rng = np.random.default_rng(seed=42)
+
 
 @pytest.fixture
 def ag3_sim_api(ag3_sim_fixture):
@@ -147,7 +149,7 @@ def test_h1x_gwss_with_default_analysis(fixture, api: AnophelesH1XAnalysis):
     h1x_params = dict(
         contig=random.choice(api.contigs),
         sample_sets=all_sample_sets,
-        window_size=random.randint(100, 500),
+        window_size=rng.integers(100, 500),
         min_cohort_size=1,
         cohort1_query=cohort1_query,
         cohort2_query=cohort2_query,
@@ -198,7 +200,7 @@ def test_h1x_gwss_with_analysis(fixture, api: AnophelesH1XAnalysis):
                 analysis=analysis,
                 contig=contig,
                 sample_sets=all_sample_sets,
-                window_size=random.randint(100, 500),
+                window_size=rng.integers(100, 500),
                 min_cohort_size=min(n1, n2),
                 cohort1_query=cohort1_query,
                 cohort2_query=cohort2_query,
diff --git a/tests/anoph/test_hap_data.py b/tests/anoph/test_hap_data.py
@@ -470,7 +470,7 @@ def test_haplotypes_with_cohort_size_param(
     analysis = api.phasing_analysis_ids[0]
 
     # Parametrize over cohort_size.
-    parametrize_cohort_size = [random.randint(1, 10), random.randint(10, 50), 1_000]
+    parametrize_cohort_size = [rng.integers(1, 10), rng.integers(10, 50), 1_000]
     for cohort_size in parametrize_cohort_size:
         check_haplotypes(
             fixture=fixture,
@@ -497,8 +497,8 @@ def test_haplotypes_with_min_cohort_size_param(
 
     # Parametrize over min_cohort_size.
     parametrize_min_cohort_size = [
-        random.randint(1, 10),
-        random.randint(10, 50),
+        rng.integers(1, 10),
+        rng.integers(10, 50),
         1_000,
     ]
     for min_cohort_size in parametrize_min_cohort_size:
@@ -527,8 +527,8 @@ def test_haplotypes_with_max_cohort_size_param(
 
     # Parametrize over max_cohort_size.
     parametrize_max_cohort_size = [
-        random.randint(1, 10),
-        random.randint(10, 50),
+        rng.integers(1, 10),
+        rng.integers(10, 50),
         1_000,
     ]
     for max_cohort_size in parametrize_max_cohort_size:
diff --git a/tests/anoph/test_hap_frq.py b/tests/anoph/test_hap_frq.py
@@ -17,6 +17,8 @@
     check_plot_frequencies_interactive_map,
 )
 
+rng = np.random.default_rng(seed=42)
+
 
 @pytest.fixture
 def ag3_sim_api(ag3_sim_fixture):
@@ -168,7 +170,7 @@ def test_hap_frequencies_with_str_cohorts(
     # Pick test parameters at random.
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = random.choice(all_sample_sets)
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
     region = fixture.random_region_str()
 
     # Set up call params.
@@ -210,7 +212,7 @@ def test_hap_frequencies_advanced(
 ):
     all_sample_sets = api.sample_sets()["sample_set"].to_list()
     sample_sets = random.choice(all_sample_sets)
-    min_cohort_size = random.randint(0, 2)
+    min_cohort_size = rng.integers(0, 2)
     region = fixture.random_region_str()
 
     # Set up call params.
diff --git a/tests/anoph/test_pca.py b/tests/anoph/test_pca.py
diff --git a/tests/anoph/test_plink_converter.py b/tests/anoph/test_plink_converter.py
diff --git a/tests/anoph/test_snp_data.py b/tests/anoph/test_snp_data.py
diff --git a/tests/anoph/test_snp_frq.py b/tests/anoph/test_snp_frq.py