Add dataset for testing R2 function and add reference pseudo-variance bernoulli (#115)

aloctavodia · web-flow · commit 348662257258 · 2025-11-11T07:54:40.000+02:00
* add reference pseudo-variance bernoulli

* add dataset
diff --git a/src/arviz_base/references.bib b/src/arviz_base/references.bib
@@ -349,3 +349,18 @@ @article{kaplan_1958
 	doi = {https://doi.org/10.1080/01621459.1958.10501452},
 	url = {https://www.tandfonline.com/doi/abs/10.1080/01621459.1958.10501452},
 }
+
+
+@article{tjur_2009,
+author = {Tue Tjur},
+title = {Coefficients of Determination in Logistic Regression Models—A New Proposal: The Coefficient of Discrimination},
+journal = {The American Statistician},
+volume = {63},
+number = {4},
+pages = {366--372},
+year = {2009},
+publisher = {ASA Website},
+doi = {10.1198/tast.2009.08210},
+URL = {https://doi.org/10.1198/tast.2009.08210},
+eprint = {https://doi.org/10.1198/tast.2009.08210}
+}
diff --git a/src/arviz_base/testing.py b/src/arviz_base/testing.py
@@ -108,6 +108,34 @@ def datatree_binary(seed=17):
     )
 
 
+def datatree_regression(seed=17):
+    """Generate a DataTree for regression data."""
+    from scipy.stats import norm
+
+    rng = np.random.default_rng(seed)
+    n_obs = 100
+    true_sigma = 0.9
+    true_mu = 2 * np.linspace(-1, 1, n_obs)
+    observed_data = true_mu + rng.normal(0, true_sigma, size=n_obs)
+
+    posterior_sigma = rng.normal(true_sigma, 0.1, size=(4, 500))
+    posterior_sigma = np.abs(posterior_sigma)
+
+    posterior_mu = rng.normal(true_mu, true_sigma * 0.5, size=(4, 500, n_obs))
+    posterior_predictive = rng.normal(posterior_mu, true_sigma, size=(4, 500, n_obs))
+    log_likelihood = norm(posterior_mu, true_sigma).logpdf(observed_data)
+
+    return from_dict(
+        {
+            "posterior": {"mu": posterior_mu, "sigma": posterior_sigma},
+            "posterior_predictive": {"y": posterior_predictive},
+            "observed_data": {"y": observed_data},
+            "log_likelihood": {"y": log_likelihood},
+        },
+        dims={"y": ["obs_dim"]},
+    )
+
+
 def datatree_4d(seed=31):
     """Generate a DataTree with a 4D posterior."""
     rng = np.random.default_rng(seed)
@@ -167,7 +195,7 @@ def cmp():
 
 
 def fake_dt():
-    """Generate a fake prior/posterior DataTreeZ."""
+    """Generate a fake prior/posterior DataTree."""
     rng = np.random.default_rng(42)
 
     return from_dict(
diff --git a/src/arviz_base/testing.pyi b/src/arviz_base/testing.pyi
@@ -10,6 +10,7 @@ def datatree(seed=...) -> None: ...
 def datatree2(seed=...) -> None: ...
 def datatree3(seed=...) -> None: ...
 def datatree_binary(seed=...) -> None: ...
+def datatree_regression(seed=...) -> None: ...
 def datatree_4d(seed=...) -> None: ...
 def datatree_sample(seed=...) -> None: ...
 def cmp() -> None: ...