Delete some validation tests for SMCK/GC

jeromekelleher · jeromekelleher · commit 245a8a916e60 · 2026-01-23T16:20:50.000Z
diff --git a/verification.py b/verification.py
@@ -4949,190 +4949,6 @@ def test_smck_vs_smckapprox_multiple_bottleneck(self):
             sequence_length=5e7,
         )
 
-    def test_gc_tract_length_smc(self):
-        """
-        Runs the check for the mean length of gene conversion tracts.
-        """
-        models = {
-            "SMC": msprime.SmcApproxCoalescent(),
-            "SMCK": msprime.SMCK(k=0.0),
-            "Hudson": msprime.StandardCoalescent(),
-        }
-        num_replicates = 10
-        n = 10
-        gene_conversion_rate = 5
-        gc_tract_lengths = np.append(np.arange(1, 5.25, 0.25), [10, 50])
-
-        for discrete_genome in [True, False]:
-            records = []
-
-            for k, l in enumerate(gc_tract_lengths):
-                num_gc_events = np.zeros(num_replicates)
-                num_internal_gc_events = np.zeros(num_replicates)
-                sum_internal_gc_tract_lengths = np.zeros(num_replicates)
-
-                for model_name, model in models.items():
-
-                    sim = msprime.ancestry._parse_sim_ancestry(
-                        samples=n,
-                        sequence_length=100,
-                        gene_conversion_rate=gene_conversion_rate,
-                        gene_conversion_tract_length=gc_tract_lengths[k],
-                        discrete_genome=discrete_genome,
-                        ploidy=1,
-                        model=model,
-                        additional_nodes=(
-                            msprime.NodeType.RECOMBINANT
-                            | msprime.NodeType.CENSUS
-                            | msprime.NodeType.GENE_CONVERSION
-                            | msprime.NodeType.PASS_THROUGH
-                            | msprime.NodeType.COMMON_ANCESTOR
-                        ),
-                        coalescing_segments_only=False,
-                    )
-
-                    for j, _ts in enumerate(sim.run_replicates(num_replicates)):
-                        num_gc_events[j] = sim.num_gene_conversion_events
-                        num_internal_gc_events[j] = (
-                            sim.num_internal_gene_conversion_events
-                        )
-                        sum_internal_gc_tract_lengths[j] = (
-                            sim.sum_internal_gc_tract_lengths
-                        )
-                        sim.reset()
-
-                    for j in range(num_replicates):
-                        records.append(
-                            {
-                                "tract_length": l,
-                                "model": model_name,
-                                "num_gc_events": num_gc_events[j],
-                                "num_internal_gc_events": num_internal_gc_events[j],
-                                "normalized_tract_length": (
-                                    sum_internal_gc_tract_lengths[j]
-                                    / num_internal_gc_events[j]
-                                    / l
-                                    if num_internal_gc_events[j] > 0
-                                    else np.nan
-                                ),
-                            }
-                        )
-
-            df = pd.DataFrame(records)
-
-            self.plot_gc_metric(
-                df, "num_gc_events", "Number of GC events", discrete_genome
-            )
-            self.plot_gc_metric(
-                df,
-                "num_internal_gc_events",
-                "Number of internal GC events",
-                discrete_genome,
-            )
-            self.plot_gc_metric(
-                df,
-                "normalized_tract_length",
-                "Normalized tract length (mean / l)",
-                discrete_genome,
-            )
-
-    def test_smc_k_num_trees_gc(self):
-        """
-        Runs the check for number of trees in the SMC and full coalescent
-        using the API, but with gene conversion instead of recombination.
-        """
-        L = 100
-        Ne = 1000
-        n = 10
-        gene_conversion_rate = 0.00001
-        gc_tract_lengths = np.arange(1, 5.25, 0.25)
-
-        num_replicates = 10_000
-        results = []
-
-        models_to_run = [
-            (msprime.SmcApproxCoalescent(), "msprime (hudson)"),
-            (msprime.SmcApproxCoalescent(), "smc"),
-            (msprime.SmcPrimeApproxCoalescent(), "smc_prime"),
-            (msprime.SMCK(k=0.0), "smc_k(0)"),
-            (msprime.SMCK(k=1.0), "smc_k(1)"),
-            (msprime.SMCK(k=L), "smc_k(inf)"),
-        ]
-
-        for gc_tract_length in gc_tract_lengths:
-            for model_obj, model_name in models_to_run:
-                sim = msprime.ancestry._parse_sim_ancestry(
-                    samples=n,
-                    population_size=Ne,
-                    sequence_length=L,
-                    gene_conversion_rate=gene_conversion_rate,
-                    gene_conversion_tract_length=gc_tract_length,
-                    model=model_obj,
-                )
-
-                for rep in range(num_replicates):
-                    sim.run()
-                    results.append(
-                        {
-                            "tract_length": gc_tract_length,
-                            "model": model_name,
-                            "replicate": rep,
-                            "num_breakpoints": sim.num_breakpoints,
-                        }
-                    )
-                    sim.reset()
-
-        smc_df = pd.DataFrame(results)
-
-        models = smc_df["model"].unique()
-        tract_lengths = sorted(smc_df["tract_length"].unique())
-        model_colors = pyplot.cm.tab10(np.linspace(0, 1, len(models)))
-
-        fig, ax = pyplot.subplots(figsize=(10, 6))
-
-        box_width = 0.15
-        legend_handles = {}
-
-        for i, tl in enumerate(tract_lengths):
-            for j, model in enumerate(models):
-                subset = smc_df[
-                    (smc_df["tract_length"] == tl) & (smc_df["model"] == model)
-                ]
-                pos = i + (j - len(models) / 2) * box_width
-                bp = ax.boxplot(
-                    subset["num_breakpoints"].values,
-                    positions=[pos],
-                    widths=box_width * 0.8,
-                    patch_artist=True,
-                    boxprops=dict(facecolor=model_colors[j], alpha=0.6),
-                    medianprops=dict(color="black"),
-                    whiskerprops=dict(color=model_colors[j]),
-                    capprops=dict(color=model_colors[j]),
-                    flierprops=dict(
-                        markerfacecolor=model_colors[j],
-                        marker="o",
-                        markersize=4,
-                        alpha=0.5,
-                    ),
-                )
-                if model not in legend_handles:
-                    legend_handles[model] = bp["boxes"][0]
-
-        ax.set_xticks(range(len(tract_lengths)))
-        ax.set_xticklabels(tract_lengths)
-        ax.set_xlabel("GC tract length")
-        ax.set_ylabel("Number of breakpoints")
-        ax.set_title(
-            f"Distribution of breakpoints by model and GC tract length. \n"
-            f"GC rate: {gene_conversion_rate}, L: {L}, Ne: {Ne}, samples: {n}"
-            f", num_replicates: {num_replicates}"
-        )
-        ax.legend(legend_handles.values(), legend_handles.keys(), title="Model")
-
-        pyplot.tight_layout()
-        pyplot.savefig(self.output_dir / "breakpoints_boxplot.png")
-        pyplot.close()
-
     def test_out_of_africa_migration_model(self):
         s_no = 10
         samples = {