Switch to new Scan API

ricardoV94 · ricardoV94 · commit ceb7ff386574 · 2026-01-05T18:23:15.000+01:00
diff --git a/notebooks/DFM_Example_(Coincident_Index).ipynb b/notebooks/DFM_Example_(Coincident_Index).ipynb
@@ -930,19 +930,19 @@
        "</pre>\n"
       ],
       "text/plain": [
-       "\u001b[3m                                     Model Requirements                                     \u001b[0m\n",
+       "\u001B[3m                                     Model Requirements                                     \u001B[0m\n",
        "                                                                                            \n",
-       " \u001b[1m \u001b[0m\u001b[1mVariable       \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mShape   \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mConstraints           \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1m                        Dimensions\u001b[0m\u001b[1m \u001b[0m \n",
+       " \u001B[1m \u001B[0m\u001B[1mVariable       \u001B[0m\u001B[1m \u001B[0m \u001B[1m \u001B[0m\u001B[1mShape   \u001B[0m\u001B[1m \u001B[0m \u001B[1m \u001B[0m\u001B[1mConstraints           \u001B[0m\u001B[1m \u001B[0m \u001B[1m \u001B[0m\u001B[1m                        Dimensions\u001B[0m\u001B[1m \u001B[0m \n",
        " ────────────────────────────────────────────────────────────────────────────────────────── \n",
-       "  x0                \u001b[1m(\u001b[0m\u001b[1;36m10\u001b[0m,\u001b[1m)\u001b[0m                                                       \u001b[1m(\u001b[0m\u001b[32m'state'\u001b[0m,\u001b[1m)\u001b[0m  \n",
-       "  P0                \u001b[1m(\u001b[0m\u001b[1;36m10\u001b[0m, \u001b[1;36m10\u001b[0m\u001b[1m)\u001b[0m   Positive Semi-definite               \u001b[1m(\u001b[0m\u001b[32m'state'\u001b[0m, \u001b[32m'state_aux'\u001b[0m\u001b[1m)\u001b[0m  \n",
-       "  factor_loadings   \u001b[1m(\u001b[0m\u001b[1;36m4\u001b[0m, \u001b[1;36m1\u001b[0m\u001b[1m)\u001b[0m                                    \u001b[1m(\u001b[0m\u001b[32m'observed_state'\u001b[0m, \u001b[32m'factor'\u001b[0m\u001b[1m)\u001b[0m  \n",
-       "  factor_ar         \u001b[1m(\u001b[0m\u001b[1;36m1\u001b[0m, \u001b[1;36m2\u001b[0m\u001b[1m)\u001b[0m                                            \u001b[1m(\u001b[0m\u001b[32m'factor'\u001b[0m, \u001b[32m'lag_ar'\u001b[0m\u001b[1m)\u001b[0m  \n",
-       "  error_ar          \u001b[1m(\u001b[0m\u001b[1;36m4\u001b[0m, \u001b[1;36m2\u001b[0m\u001b[1m)\u001b[0m                              \u001b[1m(\u001b[0m\u001b[32m'observed_state'\u001b[0m, \u001b[32m'error_lag_ar'\u001b[0m\u001b[1m)\u001b[0m  \n",
-       "  error_sigma       \u001b[1m(\u001b[0m\u001b[1;36m4\u001b[0m,\u001b[1m)\u001b[0m       Positive                                \u001b[1m(\u001b[0m\u001b[32m'observed_state'\u001b[0m,\u001b[1m)\u001b[0m  \n",
+       "  x0                \u001B[1m(\u001B[0m\u001B[1;36m10\u001B[0m,\u001B[1m)\u001B[0m                                                       \u001B[1m(\u001B[0m\u001B[32m'state'\u001B[0m,\u001B[1m)\u001B[0m  \n",
+       "  P0                \u001B[1m(\u001B[0m\u001B[1;36m10\u001B[0m, \u001B[1;36m10\u001B[0m\u001B[1m)\u001B[0m   Positive Semi-definite               \u001B[1m(\u001B[0m\u001B[32m'state'\u001B[0m, \u001B[32m'state_aux'\u001B[0m\u001B[1m)\u001B[0m  \n",
+       "  factor_loadings   \u001B[1m(\u001B[0m\u001B[1;36m4\u001B[0m, \u001B[1;36m1\u001B[0m\u001B[1m)\u001B[0m                                    \u001B[1m(\u001B[0m\u001B[32m'observed_state'\u001B[0m, \u001B[32m'factor'\u001B[0m\u001B[1m)\u001B[0m  \n",
+       "  factor_ar         \u001B[1m(\u001B[0m\u001B[1;36m1\u001B[0m, \u001B[1;36m2\u001B[0m\u001B[1m)\u001B[0m                                            \u001B[1m(\u001B[0m\u001B[32m'factor'\u001B[0m, \u001B[32m'lag_ar'\u001B[0m\u001B[1m)\u001B[0m  \n",
+       "  error_ar          \u001B[1m(\u001B[0m\u001B[1;36m4\u001B[0m, \u001B[1;36m2\u001B[0m\u001B[1m)\u001B[0m                              \u001B[1m(\u001B[0m\u001B[32m'observed_state'\u001B[0m, \u001B[32m'error_lag_ar'\u001B[0m\u001B[1m)\u001B[0m  \n",
+       "  error_sigma       \u001B[1m(\u001B[0m\u001B[1;36m4\u001B[0m,\u001B[1m)\u001B[0m       Positive                                \u001B[1m(\u001B[0m\u001B[32m'observed_state'\u001B[0m,\u001B[1m)\u001B[0m  \n",
        "                                                                                            \n",
-       "\u001b[2;3m  These parameters should be assigned priors inside a PyMC model block before calling the   \u001b[0m\n",
-       "\u001b[2;3m                               build_statespace_graph method.                               \u001b[0m\n"
+       "\u001B[2;3m  These parameters should be assigned priors inside a PyMC model block before calling the   \u001B[0m\n",
+       "\u001B[2;3m                               build_statespace_graph method.                               \u001B[0m\n"
       ]
      },
      "metadata": {},
@@ -1759,8 +1759,11 @@
     "        K = pt.linalg.solve(F, PZT.T, assume_a=\"pos\", check_finite=False).T\n",
     "        return K\n",
     "\n",
-    "    ss_kalman_gain, updates = pytensor.scan(\n",
-    "        step, non_sequences=[Z, T, H], sequences=[predicted_covariance]\n",
+    "    ss_kalman_gain = pytensor.scan(\n",
+    "        step,\n",
+    "        non_sequences=[Z, T, H],\n",
+    "        sequences=[predicted_covariance],\n",
+    "        return_updates=False,\n",
     "    )\n",
     "    # Get the last Kalman gain (steady state)\n",
     "    ss_kalman_gain = ss_kalman_gain[-1]\n",
diff --git a/notebooks/discrete_markov_chain.ipynb b/notebooks/discrete_markov_chain.ipynb
@@ -558,13 +558,14 @@
     "\n",
     "        return y_out\n",
     "\n",
-    "    result, updates = pytensor.scan(\n",
+    "    result = pytensor.scan(\n",
     "        AR_step,\n",
     "        sequences=[\n",
     "            {\"input\": hidden_states, \"taps\": [0, -1, -2, -3, -4]},\n",
     "            {\"input\": y, \"taps\": [-1, -2, -3, -4]},\n",
     "        ],\n",
     "        non_sequences=[state_mus, ar_coefs],\n",
+    "        return_updates=False,\n",
     "    )\n",
     "\n",
     "    sigma = pm.HalfCauchy(\"sigma\", 0.8)\n",
diff --git a/pymc_extras/distributions/timeseries.py b/pymc_extras/distributions/timeseries.py
@@ -196,21 +196,20 @@ def rv_op(cls, P, steps, init_dist, n_lags, size=None):
         state_rng = pytensor.shared(np.random.default_rng())
 
         def transition(*args):
-            *states, transition_probs, old_rng = args
+            old_rng, *states, transition_probs = args
             p = transition_probs[tuple(states)]
             next_rng, next_state = pm.Categorical.dist(p=p, rng=old_rng).owner.outputs
-            return next_state, {old_rng: next_rng}
+            return next_rng, next_state
 
-        markov_chain, state_updates = pytensor.scan(
+        state_next_rng, markov_chain = pytensor.scan(
             transition,
-            non_sequences=[P_, state_rng],
-            outputs_info=_make_outputs_info(n_lags, init_dist_),
+            outputs_info=[state_rng, *_make_outputs_info(n_lags, init_dist_)],
+            non_sequences=[P_],
             n_steps=steps_,
             strict=True,
+            return_updates=False,
         )
 
-        (state_next_rng,) = tuple(state_updates.values())
-
         discrete_mc_ = pt.moveaxis(pt.concatenate([init_dist_, markov_chain], axis=0), 0, -1)
 
         discrete_mc_op = DiscreteMarkovChainRV(
@@ -243,12 +242,13 @@ def greedy_transition(*args):
         p = transition_probs[tuple(states)]
         return pt.argmax(p)
 
-    chain_moment, moment_updates = pytensor.scan(
+    chain_moment = pytensor.scan(
         greedy_transition,
         non_sequences=[P, state_rng],
         outputs_info=_make_outputs_info(n_lags, init_dist),
         n_steps=steps,
         strict=True,
+        return_updates=False,
     )
     chain_moment = pt.concatenate([init_dist_moment, chain_moment])
     return chain_moment
diff --git a/pymc_extras/inference/pathfinder/pathfinder.py b/pymc_extras/inference/pathfinder/pathfinder.py
@@ -278,12 +278,13 @@ def compute_alpha_l(s_l, z_l, alpha_lm1) -> TensorVariable:
     z = pt.diff(g, axis=0)
     alpha_l_init = pt.ones(N)
 
-    alpha, _ = pytensor.scan(
+    alpha = pytensor.scan(
         fn=compute_alpha_l,
         outputs_info=alpha_l_init,
         sequences=[s, z],
         n_steps=Lp1 - 1,
         allow_gc=False,
+        return_updates=False,
     )
 
     # assert np.all(alpha.eval() > 0), "alpha cannot be negative"
@@ -334,11 +335,12 @@ def chi_update(diff_l, chi_lm1) -> TensorVariable:
             return pt.set_subtensor(chi_l[j_last], diff_l)
 
         chi_init = pt.zeros((J, N))
-        chi_mat, _ = pytensor.scan(
+        chi_mat = pytensor.scan(
             fn=chi_update,
             outputs_info=chi_init,
             sequences=[diff],
             allow_gc=False,
+            return_updates=False,
         )
 
         chi_mat = pt.matrix_transpose(chi_mat)
@@ -377,14 +379,14 @@ def get_chi_matrix_2(diff: TensorVariable, J: TensorConstant) -> TensorVariable:
     eta = pt.diagonal(E, axis1=-2, axis2=-1)
 
     # beta: (L, N, 2J)
-    alpha_diag, _ = pytensor.scan(lambda a: pt.diag(a), sequences=[alpha])
+    alpha_diag = pytensor.scan(lambda a: pt.diag(a), sequences=[alpha], return_updates=False)
     beta = pt.concatenate([alpha_diag @ Z, S], axis=-1)
 
     # more performant and numerically precise to use solve than inverse: https://jax.readthedocs.io/en/latest/_autosummary/jax.numpy.linalg.inv.html
 
     # E_inv: (L, J, J)
     E_inv = pt.slinalg.solve_triangular(E, Ij, check_finite=False)
-    eta_diag, _ = pytensor.scan(pt.diag, sequences=[eta])
+    eta_diag = pytensor.scan(pt.diag, sequences=[eta], return_updates=False)
 
     # block_dd: (L, J, J)
     block_dd = (
@@ -530,7 +532,9 @@ def bfgs_sample_sparse(
 
     # qr_input: (L, N, 2J)
     qr_input = inv_sqrt_alpha_diag @ beta
-    (Q, R), _ = pytensor.scan(fn=pt.linalg.qr, sequences=[qr_input], allow_gc=False)
+    Q, R = pytensor.scan(
+        fn=pt.linalg.qr, sequences=[qr_input], allow_gc=False, return_updates=False
+    )
 
     IdN = pt.eye(R.shape[1])[None, ...]
     IdN += IdN * REGULARISATION_TERM
@@ -623,10 +627,11 @@ def bfgs_sample(
 
     L, N, JJ = beta.shape
 
-    (alpha_diag, inv_sqrt_alpha_diag, sqrt_alpha_diag), _ = pytensor.scan(
+    alpha_diag, inv_sqrt_alpha_diag, sqrt_alpha_diag = pytensor.scan(
         lambda a: [pt.diag(a), pt.diag(pt.sqrt(1.0 / a)), pt.diag(pt.sqrt(a))],
         sequences=[alpha],
         allow_gc=False,
+        return_updates=False,
     )
 
     u = pt.random.normal(size=(L, num_samples, N))
diff --git a/pymc_extras/model/marginal/distributions.py b/pymc_extras/model/marginal/distributions.py
@@ -282,11 +282,12 @@ def finite_discrete_marginal_rv_logp(op: MarginalFiniteDiscreteRV, values, *inpu
         def logp_fn(marginalized_rv_const, *non_sequences):
             return graph_replace(joint_logp, replace={marginalized_vv: marginalized_rv_const})
 
-        joint_logps, _ = scan_map(
+        joint_logps = scan_map(
             fn=logp_fn,
             sequences=marginalized_rv_domain_tensor,
             non_sequences=[*values, *inputs],
             mode=Mode().including("local_remove_check_parameter"),
+            return_updates=False,
         )
 
     joint_logp = pt.logsumexp(joint_logps, axis=0)
@@ -350,12 +351,13 @@ def step_alpha(logp_emission, log_alpha, log_P):
 
     P_bcast_dims = (len(chain_shape) - 1) - (P.type.ndim - 2)
     log_P = pt.shape_padright(pt.log(P), P_bcast_dims)
-    log_alpha_seq, _ = scan(
+    log_alpha_seq = scan(
         step_alpha,
         non_sequences=[log_P],
         outputs_info=[log_alpha_init],
         # Scan needs the time dimension first, and we already consumed the 1st logp computing the initial value
         sequences=pt.moveaxis(batch_logp_emissions[..., 1:], -1, 0),
+        return_updates=False,
     )
     # Final logp is just the sum of the last scan state
     joint_logp = pt.logsumexp(log_alpha_seq[-1], axis=0)
diff --git a/pymc_extras/statespace/core/statespace.py b/pymc_extras/statespace/core/statespace.py
@@ -2500,13 +2500,14 @@ def irf_step(shock, x, c, T, R):
                 next_x = c + T @ x + R @ shock
                 return next_x
 
-            irf, updates = pytensor.scan(
+            irf = pytensor.scan(
                 irf_step,
                 sequences=[shock_trajectory],
                 outputs_info=[x0],
                 non_sequences=[c, T, R],
                 n_steps=n_steps,
                 strict=True,
+                return_updates=False,
             )
 
             pm.Deterministic("irf", irf, dims=[TIME_DIM, ALL_STATE_DIM])
diff --git a/pymc_extras/statespace/filters/distributions.py b/pymc_extras/statespace/filters/distributions.py
@@ -197,10 +197,9 @@ def sort_args(args):
         n_seq = len(sequence_names)
 
         def step_fn(*args):
-            seqs, state, non_seqs = args[:n_seq], args[n_seq], args[n_seq + 1 :]
-            non_seqs, rng = non_seqs[:-1], non_seqs[-1]
+            seqs, (rng, state, *non_seqs) = args[:n_seq], args[n_seq:]
 
-            c, d, T, Z, R, H, Q = sort_args(seqs + non_seqs)
+            c, d, T, Z, R, H, Q = sort_args((*seqs, *non_seqs))
             k = T.shape[0]
             a = state[:k]
 
@@ -219,7 +218,7 @@ def step_fn(*args):
 
             next_state = pt.concatenate([a_next, y_next], axis=0)
 
-            return next_state, {rng: next_rng}
+            return next_rng, next_state
 
         Z_init = Z_ if Z_ in non_sequences else Z_[0]
         H_init = H_ if H_ in non_sequences else H_[0]
@@ -229,13 +228,14 @@ def step_fn(*args):
 
         init_dist_ = pt.concatenate([init_x_, init_y_], axis=0)
 
-        statespace, updates = pytensor.scan(
+        ss_rng, statespace = pytensor.scan(
             step_fn,
-            outputs_info=[init_dist_],
+            outputs_info=[rng, init_dist_],
             sequences=None if len(sequences) == 0 else sequences,
-            non_sequences=[*non_sequences, rng],
+            non_sequences=[*non_sequences],
             n_steps=steps,
             strict=True,
+            return_updates=False,
         )
 
         if append_x0:
@@ -245,7 +245,6 @@ def step_fn(*args):
             statespace_ = statespace
             statespace_ = pt.specify_shape(statespace_, (steps, None))
 
-        (ss_rng,) = tuple(updates.values())
         linear_gaussian_ss_op = LinearGaussianStateSpaceRV(
             inputs=[a0_, P0_, c_, d_, T_, Z_, R_, H_, Q_, steps, rng],
             outputs=[ss_rng, statespace_],
@@ -385,19 +384,22 @@ def rv_op(cls, mus, covs, logp, method="svd", size=None):
 
         def step(mu, cov, rng):
             new_rng, mvn = pm.MvNormal.dist(mu=mu, cov=cov, rng=rng, method=method).owner.outputs
-            return mvn, {rng: new_rng}
+            return new_rng, mvn
 
-        mvn_seq, updates = pytensor.scan(
-            step, sequences=[mus_, covs_], non_sequences=[rng], strict=True, n_steps=mus_.shape[0]
+        seq_mvn_rng, mvn_seq = pytensor.scan(
+            step,
+            sequences=[mus_, covs_],
+            outputs_info=[rng, None],
+            strict=True,
+            n_steps=mus_.shape[0],
+            return_updates=False,
         )
         mvn_seq = pt.specify_shape(mvn_seq, mus.type.shape)
 
         # Move time axis back to position -2 so batches are on the left
         if mvn_seq.ndim > 2:
             mvn_seq = pt.moveaxis(mvn_seq, 0, -2)
 
-        (seq_mvn_rng,) = tuple(updates.values())
-
         mvn_seq_op = KalmanFilterRV(
             inputs=[mus_, covs_, logp_, rng], outputs=[seq_mvn_rng, mvn_seq], ndim_supp=2
         )
diff --git a/pymc_extras/statespace/filters/kalman_filter.py b/pymc_extras/statespace/filters/kalman_filter.py
@@ -148,10 +148,9 @@ def build_graph(
         R,
         H,
         Q,
-        return_updates=False,
         missing_fill_value=None,
         cov_jitter=None,
-    ) -> list[TensorVariable] | tuple[list[TensorVariable], dict]:
+    ) -> list[TensorVariable]:
         """
         Construct the computation graph for the Kalman filter. See [1] for details.
 
@@ -211,20 +210,17 @@ def build_graph(
         if len(sequences) > 0:
             sequences = self.add_check_on_time_varying_shapes(data, sequences)
 
-        results, updates = pytensor.scan(
+        results = pytensor.scan(
             self.kalman_step,
             sequences=[data, *sequences],
             outputs_info=[None, a0, None, None, P0, None, None],
             non_sequences=non_sequences,
             name="forward_kalman_pass",
             strict=False,
+            return_updates=False,
         )
 
-        filter_results = self._postprocess_scan_results(results, a0, P0, n=data.type.shape[0])
-
-        if return_updates:
-            return filter_results, updates
-        return filter_results
+        return self._postprocess_scan_results(results, a0, P0, n=data.type.shape[0])
 
     def _postprocess_scan_results(self, results, a0, P0, n) -> list[TensorVariable]:
         """
@@ -786,11 +782,12 @@ def kalman_step(self, y, a, P, c, d, T, Z, R, H, Q):
         H_masked = W.dot(H)
         y_masked = pt.set_subtensor(y[nan_mask], 0.0)
 
-        result, updates = pytensor.scan(
+        result = pytensor.scan(
             self._univariate_inner_filter_step,
             sequences=[y_masked, Z_masked, d, pt.diag(H_masked), nan_mask],
             outputs_info=[a, P, None, None, None],
             name="univariate_inner_scan",
+            return_updates=False,
         )
 
         a_filtered, P_filtered, obs_mu, obs_cov, ll_inner = result
diff --git a/pymc_extras/statespace/filters/kalman_smoother.py b/pymc_extras/statespace/filters/kalman_smoother.py
@@ -76,16 +76,16 @@ def build_graph(
         self.seq_names = seq_names
         self.non_seq_names = non_seq_names
 
-        smoother_result, updates = pytensor.scan(
+        smoothed_states, smoothed_covariances = pytensor.scan(
             self.smoother_step,
             sequences=[filtered_states[:-1], filtered_covariances[:-1], *sequences],
             outputs_info=[a_last, P_last],
             non_sequences=non_sequences,
             go_backwards=True,
             name="kalman_smoother",
+            return_updates=False,
         )
 
-        smoothed_states, smoothed_covariances = smoother_result
         smoothed_states = pt.concatenate(
             [smoothed_states[::-1], pt.expand_dims(a_last, axis=(0,))], axis=0
         )