dynamically sets batches to min(n_samples, 100); closes #1606

tyarkoni · tyarkoni · commit c378850acb6d · 2016-12-16T13:01:14.000-06:00
diff --git a/pymc3/stats.py b/pymc3/stats.py
@@ -365,7 +365,7 @@ def mc_error(x, batches=5):
       x : Numpy array
           An array containing MCMC samples
       batches : integer
-          Number of batchas
+          Number of batches
     """
 
     if x.ndim > 1:
@@ -428,7 +428,7 @@ def quantiles(x, qlist=(2.5, 25, 50, 75, 97.5), transform=lambda x: x):
 
 
 def df_summary(trace, varnames=None, stat_funcs=None, extend=False, include_transformed=False,
-               alpha=0.05, batches=100):
+               alpha=0.05, batches=None):
     R"""Create a data frame with summary statistics.
 
     Parameters
@@ -458,15 +458,15 @@ def df_summary(trace, varnames=None, stat_funcs=None, extend=False, include_tran
         addition to, rather than in place of, the default statistics.
         This is only meaningful when `stat_funcs` is not None.
     include_transformed : bool
-        Flag for reporting automatically transformed variables in addition to
-        original variables (defaults to False).
+        Flag for reporting automatically transformed variables in addition
+        to original variables (defaults to False).
     alpha : float
         The alpha level for generating posterior intervals. Defaults
         to 0.05. This is only meaningful when `stat_funcs` is None.
-    batches : int
-        Batch size for calculating standard deviation for
-        non-independent samples. Defaults to 100. This is only
-        meaningful when `stat_funcs` is None.
+    batches : None or int
+        Batch size for calculating standard deviation for non-independent
+        samples. Defaults to the smaller of 100 or the number of samples.
+        This is only meaningful when `stat_funcs` is None.
 
 
     See also
@@ -509,6 +509,9 @@ def df_summary(trace, varnames=None, stat_funcs=None, extend=False, include_tran
         else:
             varnames = [name for name in trace.varnames if not name.endswith('_')]
 
+    if batches is None:
+        batches = min([100, len(trace)])
+
     funcs = [lambda x: pd.Series(np.mean(x, 0), name='mean'),
              lambda x: pd.Series(np.std(x, 0), name='sd'),
              lambda x: pd.Series(mc_error(x, batches), name='mc_error'),
@@ -535,7 +538,7 @@ def _hpd_df(x, alpha):
     return pd.DataFrame(hpd(x, alpha), columns=cnames)
 
 
-def summary(trace, varnames=None, alpha=0.05, start=0, batches=100, roundto=3,
+def summary(trace, varnames=None, alpha=0.05, start=0, batches=None, roundto=3,
             include_transformed=False, to_file=None):
     R"""
     Generate a pretty-printed summary of the node.
@@ -553,9 +556,10 @@ def summary(trace, varnames=None, alpha=0.05, start=0, batches=100, roundto=3,
     start : int
       The starting index from which to summarize (each) chain. Defaults
       to zero.
-    batches : int
-      Batch size for calculating standard deviation for non-independent
-      samples. Defaults to 100.
+    batches : None or int
+        Batch size for calculating standard deviation for non-independent
+        samples. Defaults to the smaller of 100 or the number of samples.
+        This is only meaningful when `stat_funcs` is None.
     roundto : int
       The number of digits to round posterior statistics.
     include_transformed : bool
@@ -571,6 +575,9 @@ def summary(trace, varnames=None, alpha=0.05, start=0, batches=100, roundto=3,
         else:
             varnames = [name for name in trace.varnames if not name.endswith('_')]
 
+    if batches is None:
+        batches = min([100, len(trace)])
+
     stat_summ = _StatSummary(roundto, batches, alpha)
     pq_summ = _PosteriorQuantileSummary(roundto, alpha)