Add inline to conditional transform

ricardoV94 · ricardoV94 · commit e9c1a9c0e387 · 2025-01-02T13:26:22.000+01:00
diff --git a/pymc_experimental/gp/pytensor_gp.py b/pymc_experimental/gp/pytensor_gp.py
@@ -1,12 +1,12 @@
+from collections.abc import Sequence
+
 import pymc as pm
 import pytensor.tensor as pt
 
-from numpy.core.numeric import normalize_axis_tuple
 from pymc.distributions.distribution import Continuous
+from pymc.model.fgraph import fgraph_from_model, model_free_rv, model_from_fgraph
+from pytensor import Variable
 from pytensor.compile.builders import OpFromGraph
-from pytensor.tensor.einsum import _delta
-
-# from pymc.logprob.abstract import MeasurableOp
 
 
 class GPCovariance(OpFromGraph):
@@ -23,7 +23,7 @@ def square_dist_Xs(X, Xs, ls):
         X2 = pt.sum(pt.square(X), axis=-1)
         Xs2 = pt.sum(pt.square(Xs), axis=-1)
 
-        sqd = -2.0 * X @ X.mT + (X2[..., :, None] + Xs2[..., None, :])
+        sqd = -2.0 * X @ Xs.mT + (X2[..., :, None] + Xs2[..., None, :])
         # sqd = -2.0 * pt.dot(X, pt.transpose(Xs)) + (
         #         pt.reshape(X2, (-1, 1)) + pt.reshape(Xs2, (1, -1))
         # )
@@ -68,25 +68,26 @@ def ExpQuad(X, X_new=None, *, ls):
     return ExpQuadCov.build_covariance(X, X_new, ls=ls)
 
 
-class WhiteNoiseCov(GPCovariance):
-    @classmethod
-    def white_noise_full(cls, X, sigma):
-        X_shape = tuple(X.shape)
-        shape = X_shape[:-1] + (X_shape[-2],)
-
-        return _delta(shape, normalize_axis_tuple((-1, -2), X.ndim)) * sigma**2
-
-    @classmethod
-    def build_covariance(cls, X, sigma):
-        X = pt.as_tensor(X)
-        sigma = pt.as_tensor(sigma)
-
-        ofg = cls(inputs=[X, sigma], outputs=[cls.white_noise_full(X, sigma)])
-        return ofg(X, sigma)
-
+# class WhiteNoiseCov(GPCovariance):
+#     @classmethod
+#     def white_noise_full(cls, X, sigma):
+#         X_shape = tuple(X.shape)
+#         shape = X_shape[:-1] + (X_shape[-2],)
+#
+#         return _delta(shape, normalize_axis_tuple((-1, -2), X.ndim)) * sigma**2
+#
+#     @classmethod
+#     def build_covariance(cls, X, sigma):
+#         X = pt.as_tensor(X)
+#         sigma = pt.as_tensor(sigma)
+#
+#         ofg = cls(inputs=[X, sigma], outputs=[cls.white_noise_full(X, sigma)])
+#         return ofg(X, sigma)
 
-def WhiteNoise(X, sigma):
-    return WhiteNoiseCov.build_covariance(X, sigma)
+#
+# def WhiteNoise(X, sigma):
+#     return WhiteNoiseCov.build_covariance(X, sigma)
+#
 
 
 class GP_RV(pm.MvNormal.rv_type):
@@ -108,6 +109,89 @@ def dist(cls, cov, **kwargs):
         return super().dist([mu, cov], **kwargs)
 
 
+def conditional_gp(
+    model,
+    gp: Variable | str,
+    Xnew,
+    *,
+    jitter=1e-6,
+    dims: Sequence[str] = (),
+    inline: bool = False,
+):
+    """
+    Condition a GP on new data.
+
+    Parameters
+    ----------
+    model: Model
+    gp: Variable | str
+        The GP to condition on.
+    Xnew: Tensor-like
+        New data to condition the GP on.
+    jitter: float, default=1e-6
+        Jitter to add to the new GP covariance matrix.
+    dims: Sequence[str], default=()
+        Dimensions of the new GP.
+    inline: bool, default=False
+        Whether to inline the new GP in place of the old one. This is not always a safe operation.
+        If True, any variables that depend on the GP will be updated to depend on the new GP.
+
+    Returns
+    -------
+    Conditional model: Model
+        A new model with a GP free RV named f"{gp.name}_star" conditioned on the new data.
+
+    """
+
+    def _build_conditional(Xnew, f, cov, jitter):
+        if not isinstance(cov.owner.op, GPCovariance):
+            raise NotImplementedError(f"Cannot build conditional of {cov.owner.op} operation")
+        X, ls = cov.owner.inputs
+
+        Kxx = cov
+        Kxs = cov.owner.op.build_covariance(X, Xnew, ls=ls)
+        Kss = cov.owner.op.build_covariance(Xnew, ls=ls)
+
+        L = pt.linalg.cholesky(Kxx + pt.eye(X.shape[0]) * jitter)
+        # TODO: Use cho_solve
+        A = pt.linalg.solve_triangular(L, Kxs, lower=True)
+        v = pt.linalg.solve_triangular(L, f, lower=True)
+
+        mu = (A.mT @ v).T  # Vector?
+        cov = Kss - (A.mT @ A)
+
+        return mu, cov
+
+    if isinstance(gp, Variable):
+        assert model[gp.name] is gp
+    else:
+        gp = model[gp.name]
+
+    fgraph, memo = fgraph_from_model(model)
+    gp_model_var = memo[gp]
+    gp_rv = gp_model_var.owner.inputs[0]
+
+    if isinstance(gp_rv.owner.op, pm.MvNormal.rv_type):
+        _, cov = gp_rv.owner.op.dist_params(gp.owner)
+    else:
+        raise NotImplementedError("Can only condition on pure GPs")
+
+    # TODO: We should write the naive conditional covariance, and then have rewrites that lift it through kernels
+    mu_star, cov_star = _build_conditional(Xnew, gp_model_var, cov, jitter)
+    gp_rv_star = pm.MvNormal.dist(mu_star, cov_star, name=f"{gp.name}_star")
+
+    value = gp_rv_star.clone()
+    transform = None
+    gp_model_var_star = model_free_rv(gp_rv_star, value, transform, *dims)
+
+    if inline:
+        fgraph.replace(gp_model_var, gp_model_var_star, import_missing=True)
+    else:
+        fgraph.add_output(gp_model_var_star, import_missing=True)
+
+    return model_from_fgraph(fgraph, mutate_fgraph=True)
+
+
 # @register_canonicalize
 # @node_rewriter(tracks=[pm.MvNormal.rv_type])
 # def GP_normal_mvnormal_conjugacy(fgraph: FunctionGraph, node):
diff --git a/tests/test_gp.py b/tests/test_gp.py
@@ -1,8 +1,10 @@
+import arviz as az
 import numpy as np
 import pymc as pm
 import pytensor.tensor as pt
+import pytest
 
-from pymc_experimental.gp.pytensor_gp import GP, ExpQuad
+from pymc_experimental.gp.pytensor_gp import GP, ExpQuad, conditional_gp
 
 
 def test_exp_quad():
@@ -77,72 +79,59 @@ def test_latent_model_logp():
     )
 
 
-import arviz as az
-
-
-def gp_conditional(model, gp, Xnew, jitter=1e-6):
-    def _build_conditional(self, Xnew, f, cov, jitter):
-        X, ls = cov.owner.inputs
-
-        Kxx = cov
-        Kxs = cov.owner.op.build_covariance(X, Xnew, ls=ls)
-        Kss = cov.owner.op.build_covariance(Xnew, ls=ls)
-
-        L = pt.linalg.cholesky(Kxx + pt.eye(X.shape[0]) * jitter)
-        # TODO: Use cho_solve
-        A = pt.linalg.solve_triangular(L, Kxs, lower=True)
-        v = pt.linalg.solve_triangular(L, f, lower=True)
-
-        mu = (A.mT @ v).T  # Vector?
-        cov = Kss - (A.mT @ A)
-
-        return mu, cov
-
-    with model.copy() as new_m:
-        gp = new_m[gp.name]
-        _, cov = gp.owner.op.dist_params(gp.owner)
-        mu_star, cov_star = _build_conditional(None, Xnew, gp, cov, jitter)
-        gp_star = pm.MvNormal("gp_star", mu_star, cov_star)
-        return new_m
-
-
-def test_latent_model_predict_new_x():
+@pytest.mark.parametrize("inline", (False, True))
+def test_latent_model_conditional(inline):
     rng = np.random.default_rng(0)
+    posterior = az.from_dict(
+        posterior={"gp": rng.normal(np.pi, 1e-3, size=(4, 1000, 3))},
+        constant_data={"X": np.arange(3)[:, None]},
+    )
+
     new_x = np.array([3, 4])[:, None]
 
     m = latent_model()
-    ref_m, ref_gp_class = latent_model_old_API()
+    with m:
+        pm.Deterministic("gp_exp", m["gp"].exp())
 
-    posterior_idata = az.from_dict({"gp": rng.normal(np.pi, 1e-3, size=(4, 1000, 2))})
-
-    # with gp_extend_to_new_x(m):
-    with gp_conditional(m, m["gp"], new_x):
-        pred = (
-            pm.sample_posterior_predictive(posterior_idata, var_names=["gp_star"])
-            .posterior_predictiev["gp"]
-            .values
-        )
+    with conditional_gp(m, m["gp"], new_x, inline=inline) as cgp:
+        pred = pm.sample_posterior_predictive(
+            posterior,
+            var_names=["gp_star", "gp_exp"],
+            progressbar=False,
+        ).posterior_predictive
 
+    ref_m, ref_gp_class = latent_model_old_API()
     with ref_m:
         gp_star = ref_gp_class.conditional("gp_star", Xnew=new_x)
-        pred_ref = (
-            pm.sample_posterior_predictive(posterior_idata, var_names=["gp_star"])
-            .posterior_predictive["gp"]
-            .values
-        )
+        pred_ref = pm.sample_posterior_predictive(
+            posterior,
+            var_names=["gp_star"],
+            progressbar=False,
+        ).posterior_predictive
 
     np.testing.assert_allclose(
-        pred.mean(),
-        pred_ref.mean(),
+        pred["gp_star"].mean(),
+        pred_ref["gp_star"].mean(),
         atol=0.1,
     )
 
     np.testing.assert_allclose(
-        pred.std(),
-        pred_ref.std(),
+        pred["gp_star"].std(),
+        pred_ref["gp_star"].std(),
         rtol=0.1,
     )
 
+    if inline:
+        assert np.testing.assert_allclose(
+            pred["gp_exp"],
+            np.exp(pred["gp_star"]),
+        )
+    else:
+        np.testing.assert_allclose(
+            pred["gp_exp"],
+            np.exp(posterior.posterior["gp"]),
+        )
+
 
 #
 # def test_marginal_sigma_rewrites_to_white_noise_cov(marginal_model, ):