Creates the CPython layer for LD matricies. In this layer, we provide a

lkirk · mergify[bot] · commit 04e04aa9bdec · 2024-02-16T09:33:50.000Z
single matrix method for each statistic. These will get dispatched in
the python layer. Adds some low level tests.
diff --git a/c/tests/test_stats.c b/c/tests/test_stats.c
@@ -2541,7 +2541,7 @@ test_two_locus_stat_input_errors(void)
 
     ret = tsk_treeseq_r2(&ts, 0, sample_set_sizes, sample_sets, num_sites, row_sites,
         num_sites, col_sites, 0, result);
-    CU_ASSERT_EQUAL_FATAL(ret, TSK_ERR_BAD_STATE_DIMS);
+    CU_ASSERT_EQUAL_FATAL(ret, TSK_ERR_INSUFFICIENT_SAMPLE_SETS);
 
     sample_set_sizes[0] = 0;
     ret = tsk_treeseq_r2(&ts, num_sample_sets, sample_set_sizes, sample_sets, num_sites,
diff --git a/c/tskit/trees.c b/c/tskit/trees.c
@@ -2668,21 +2668,17 @@ tsk_treeseq_two_locus_count_stat(const tsk_treeseq_t *self, tsk_size_t num_sampl
         ret = TSK_ERR_MULTIPLE_STAT_MODES;
         goto out;
     }
-    if (state_dim < 1) {
-        ret = TSK_ERR_BAD_STATE_DIMS;
-        goto out;
-    }
     // TODO: impossible until we implement branch/windows
     // if (result_dim < 1) {
     //     ret = TSK_ERR_BAD_RESULT_DIMS;
     //     goto out;
     // }
-
     ret = tsk_treeseq_check_sample_sets(
         self, num_sample_sets, sample_set_sizes, sample_sets);
     if (ret != 0) {
         goto out;
     }
+    tsk_bug_assert(state_dim > 0);
     ret = sample_sets_to_bit_array(
         self, sample_set_sizes, sample_sets, num_sample_sets, &sample_sets_bits);
     if (ret != 0) {
diff --git a/python/_tskitmodule.c b/python/_tskitmodule.c
@@ -9860,6 +9860,130 @@ TreeSequence_divergence_matrix(TreeSequence *self, PyObject *args, PyObject *kwd
     return ret;
 }
 
+static PyObject *
+TreeSequence_ld_matrix(TreeSequence *self, PyObject *args, PyObject *kwds,
+    two_locus_count_stat_method *method)
+{
+    PyObject *ret = NULL;
+    static char *kwlist[]
+        = { "sample_set_sizes", "sample_sets", "row_sites", "col_sites", "mode", NULL };
+
+    PyObject *row_sites = NULL;
+    PyObject *col_sites = NULL;
+    PyObject *sample_set_sizes = NULL;
+    PyObject *sample_sets = NULL;
+    PyArrayObject *sample_set_sizes_array = NULL;
+    PyArrayObject *sample_sets_array = NULL;
+    PyArrayObject *row_sites_array = NULL;
+    PyArrayObject *col_sites_array = NULL;
+    PyArrayObject *result_matrix = NULL;
+    npy_intp result_shape[3];
+    char *mode = NULL;
+    tsk_size_t num_sample_sets;
+    tsk_flags_t options = 0;
+    int err;
+
+    if (TreeSequence_check_state(self) != 0) {
+        goto out;
+    }
+    if (!PyArg_ParseTupleAndKeywords(args, kwds, "OOOOs", kwlist, &sample_set_sizes,
+            &sample_sets, &row_sites, &col_sites, &mode)) {
+        goto out;
+    }
+    if (parse_stats_mode(mode, &options) != 0) {
+        goto out;
+    }
+    if (parse_sample_sets(sample_set_sizes, &sample_set_sizes_array, sample_sets,
+            &sample_sets_array, &num_sample_sets)
+        != 0) {
+        goto out;
+    }
+    row_sites_array = (PyArrayObject *) PyArray_FROMANY(
+        row_sites, NPY_INT32, 1, 1, NPY_ARRAY_IN_ARRAY);
+    if (row_sites_array == NULL) {
+        goto out;
+    }
+    col_sites_array = (PyArrayObject *) PyArray_FROMANY(
+        col_sites, NPY_INT32, 1, 1, NPY_ARRAY_IN_ARRAY);
+    if (col_sites_array == NULL) {
+        goto out;
+    }
+
+    result_shape[0] = PyArray_DIM(row_sites_array, 0);
+    result_shape[1] = PyArray_DIM(col_sites_array, 0);
+    result_shape[2] = num_sample_sets;
+    result_matrix = (PyArrayObject *) PyArray_ZEROS(3, result_shape, NPY_FLOAT64, 0);
+    if (result_matrix == NULL) {
+        goto out;
+    }
+
+    // clang-format off
+    Py_BEGIN_ALLOW_THREADS
+    err = method(self->tree_sequence, num_sample_sets,
+        PyArray_DATA(sample_set_sizes_array), PyArray_DATA(sample_sets_array),
+        result_shape[0], PyArray_DATA(row_sites_array), result_shape[1],
+        PyArray_DATA(col_sites_array), options, PyArray_DATA(result_matrix));
+    Py_END_ALLOW_THREADS
+        // clang-format on
+
+        if (err != 0)
+    {
+        handle_library_error(err);
+        goto out;
+    }
+    ret = (PyObject *) result_matrix;
+    result_matrix = NULL;
+out:
+    Py_XDECREF(row_sites_array);
+    Py_XDECREF(col_sites_array);
+    Py_XDECREF(sample_set_sizes_array);
+    Py_XDECREF(sample_sets_array);
+    Py_XDECREF(result_matrix);
+    return ret;
+}
+
+static PyObject *
+TreeSequence_D_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_D);
+}
+
+static PyObject *
+TreeSequence_D2_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_D2);
+}
+
+static PyObject *
+TreeSequence_r2_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_r2);
+}
+
+static PyObject *
+TreeSequence_D_prime_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_D_prime);
+}
+
+static PyObject *
+TreeSequence_r_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_r);
+}
+
+static PyObject *
+TreeSequence_Dz_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_Dz);
+}
+
+static PyObject *
+TreeSequence_pi2_matrix(TreeSequence *self, PyObject *args, PyObject *kwds)
+{
+    return TreeSequence_ld_matrix(self, args, kwds, tsk_treeseq_pi2);
+}
+
 static PyObject *
 TreeSequence_get_num_mutations(TreeSequence *self)
 {
@@ -10588,6 +10712,34 @@ static PyMethodDef TreeSequence_methods[] = {
         .ml_meth = (PyCFunction) TreeSequence_has_reference_sequence,
         .ml_flags = METH_NOARGS,
         .ml_doc = "Returns True if the TreeSequence has a reference sequence." },
+    { .ml_name = "D_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_D_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the D matrix." },
+    { .ml_name = "D2_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_D2_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the D2 matrix." },
+    { .ml_name = "r2_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_r2_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the r2 matrix." },
+    { .ml_name = "D_prime_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_D_prime_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the D_prime matrix." },
+    { .ml_name = "r_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_r_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the r matrix." },
+    { .ml_name = "Dz_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_Dz_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the Dz matrix." },
+    { .ml_name = "pi2_matrix",
+        .ml_meth = (PyCFunction) TreeSequence_pi2_matrix,
+        .ml_flags = METH_VARARGS | METH_KEYWORDS,
+        .ml_doc = "Computes the pi2 matrix." },
     { NULL } /* Sentinel */
 };
 
diff --git a/python/tests/test_lowlevel.py b/python/tests/test_lowlevel.py
@@ -1512,6 +1512,112 @@ def test_extend_edges_bad_args(self):
         ):
             tsm.extend_edges(1)
 
+    @pytest.mark.parametrize(
+        "stat_method_name",
+        [
+            "D_matrix",
+            "D2_matrix",
+            "r2_matrix",
+            "D_prime_matrix",
+            "r_matrix",
+            "Dz_matrix",
+            "pi2_matrix",
+        ],
+    )
+    def test_ld_matrix(self, stat_method_name):
+        ts = self.get_example_tree_sequence(10)
+        stat_method = getattr(ts, stat_method_name)
+
+        mode = "site"
+        sample_sets = ts.get_samples()
+        sample_set_sizes = np.array([len(sample_sets)], dtype=np.uint32)
+        row_sites = np.arange(ts.get_num_sites(), dtype=np.int32)
+        col_sites = row_sites
+        row_sites_list = list(range(ts.get_num_sites()))
+        col_sites_list = row_sites_list
+
+        # happy path
+        a = stat_method(sample_set_sizes, sample_sets, row_sites, col_sites, mode)
+        assert a.shape == (10, 10, 1)
+
+        a = stat_method(
+            sample_set_sizes, sample_sets, row_sites_list, col_sites_list, mode
+        )
+        assert a.shape == (10, 10, 1)
+
+        # CPython API errors
+        with pytest.raises(ValueError, match="Sum of sample_set_sizes"):
+            bad_sample_sets = np.array([], dtype=np.int32)
+            stat_method(sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode)
+        with pytest.raises(TypeError, match="cast array data"):
+            bad_sample_sets = np.array(ts.get_samples(), dtype=np.uint32)
+            stat_method(sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode)
+        with pytest.raises(ValueError, match="Unrecognised stats mode"):
+            stat_method(sample_set_sizes, sample_sets, row_sites, col_sites, "bla")
+        with pytest.raises(TypeError, match="at most"):
+            stat_method(
+                sample_set_sizes, sample_sets, row_sites, col_sites, mode, "abc"
+            )
+        with pytest.raises(ValueError, match="invalid literal"):
+            bad_sites = ["abadsite", 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, bad_sites, col_sites, mode)
+        with pytest.raises(TypeError):
+            bad_sites = [None, 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, bad_sites, col_sites, mode)
+        with pytest.raises(TypeError):
+            bad_sites = [{}, 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, bad_sites, col_sites, mode)
+        with pytest.raises(TypeError, match="Cannot cast array data"):
+            bad_sites = np.array([0, 1, 2], dtype=np.uint32)
+            stat_method(sample_set_sizes, sample_sets, bad_sites, col_sites, mode)
+        with pytest.raises(ValueError, match="invalid literal"):
+            bad_sites = ["abadsite", 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, row_sites, bad_sites, mode)
+        with pytest.raises(TypeError):
+            bad_sites = [None, 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, row_sites, bad_sites, mode)
+        with pytest.raises(TypeError):
+            bad_sites = [{}, 0, 3, 2]
+            stat_method(sample_set_sizes, sample_sets, row_sites, bad_sites, mode)
+        with pytest.raises(TypeError, match="Cannot cast array data"):
+            bad_sites = np.array([0, 1, 2], dtype=np.uint32)
+            stat_method(sample_set_sizes, sample_sets, row_sites, bad_sites, mode)
+        # C API errors
+        with pytest.raises(tskit.LibraryError, match="TSK_ERR_UNSORTED_SITES"):
+            bad_sites = np.array([1, 0, 2], dtype=np.int32)
+            stat_method(sample_set_sizes, sample_sets, bad_sites, col_sites, mode)
+        with pytest.raises(tskit.LibraryError, match="TSK_ERR_UNSORTED_SITES"):
+            bad_sites = np.array([1, 0, 2], dtype=np.int32)
+            stat_method(sample_set_sizes, sample_sets, row_sites, bad_sites, mode)
+        with pytest.raises(
+            _tskit.LibraryError, match="TSK_ERR_INSUFFICIENT_SAMPLE_SETS"
+        ):
+            bad_sample_sets = np.array([], dtype=np.int32)
+            bad_sample_set_sizes = np.array([], dtype=np.uint32)
+            stat_method(
+                bad_sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode
+            )
+        with pytest.raises(_tskit.LibraryError, match="TSK_ERR_EMPTY_SAMPLE_SET"):
+            bad_sample_sets = np.array([], dtype=np.int32)
+            bad_sample_set_sizes = np.array([0], dtype=np.uint32)
+            stat_method(
+                bad_sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode
+            )
+        with pytest.raises(_tskit.LibraryError, match="TSK_ERR_NODE_OUT_OF_BOUNDS"):
+            bad_sample_sets = np.array([1000], dtype=np.int32)
+            bad_sample_set_sizes = np.array([1], dtype=np.uint32)
+            stat_method(
+                bad_sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode
+            )
+        with pytest.raises(_tskit.LibraryError, match="TSK_ERR_DUPLICATE_SAMPLE"):
+            bad_sample_sets = np.array([2, 2], dtype=np.int32)
+            bad_sample_set_sizes = np.array([2], dtype=np.uint32)
+            stat_method(
+                bad_sample_set_sizes, bad_sample_sets, row_sites, col_sites, mode
+            )
+        with pytest.raises(_tskit.LibraryError, match="TSK_ERR_UNSUPPORTED_STAT_MODE"):
+            stat_method(sample_set_sizes, sample_sets, row_sites, col_sites, "branch")
+
     def test_kc_distance_errors(self):
         ts1 = self.get_example_tree_sequence(10)
         with pytest.raises(TypeError):