Merge pull request scipy#21822 from mdhaber/gh21820

andyfaff · web-flow · commit 1946f3e05c45 · 2024-11-09T12:44:37.000+11:00
TST: `stats.fit`: adjust tests for `seed`-&gt;`rng` transition
diff --git a/scipy/stats/tests/test_fit.py b/scipy/stats/tests/test_fit.py
@@ -231,31 +231,32 @@ def cases_test_fit_mle():
     # These fail default test or hang
     skip_basic_fit = {'argus', 'irwinhall', 'foldnorm', 'truncpareto',
                       'truncweibull_min', 'ksone', 'levy_stable',
-                      'studentized_range', 'kstwo', 'arcsine',
+                      'studentized_range', 'kstwo',
+                      'beta', 'nakagami', 'truncnorm', # don't meet tolerance
                       'poisson_binom'}  # vector-valued shape parameter
 
     # Please keep this list in alphabetical order...
-    slow_basic_fit = {'alpha', 'betaprime', 'binom', 'bradford', 'burr12',
+    slow_basic_fit = {'alpha', 'arcsine', 'betaprime', 'binom', 'bradford', 'burr12',
                       'chi', 'crystalball', 'dweibull', 'erlang', 'exponnorm',
                       'exponpow', 'f', 'fatiguelife', 'fisk', 'foldcauchy', 'gamma',
                       'genexpon', 'genextreme', 'gennorm', 'genpareto',
                       'gompertz', 'halfgennorm', 'invgamma', 'invgauss', 'invweibull',
                       'jf_skew_t', 'johnsonsb', 'johnsonsu', 'kappa3',
                       'kstwobign', 'loglaplace', 'lognorm', 'lomax', 'mielke',
-                      'nakagami', 'nbinom', 'norminvgauss',
+                      'nbinom', 'norminvgauss',
                       'pareto', 'pearson3', 'powerlaw', 'powernorm',
                       'randint', 'rdist', 'recipinvgauss', 'rice', 'skewnorm',
                       't', 'uniform', 'weibull_max', 'weibull_min', 'wrapcauchy'}
 
     # Please keep this list in alphabetical order...
-    xslow_basic_fit = {'beta', 'betabinom', 'betanbinom', 'burr', 'exponweib',
+    xslow_basic_fit = {'betabinom', 'betanbinom', 'burr', 'exponweib',
                        'gausshyper', 'gengamma', 'genhalflogistic',
                        'genhyperbolic', 'geninvgauss',
                        'hypergeom', 'kappa4', 'loguniform',
                        'ncf', 'nchypergeom_fisher', 'nchypergeom_wallenius',
                        'nct', 'ncx2', 'nhypergeom',
                        'powerlognorm', 'reciprocal', 'rel_breitwigner',
-                       'skellam', 'trapezoid', 'triang', 'truncnorm',
+                       'skellam', 'trapezoid', 'triang',
                        'tukeylambda', 'vonmises', 'zipfian'}
 
     for dist in dict(distdiscrete + distcont):
@@ -282,12 +283,12 @@ def cases_test_fit_mse():
                       'gausshyper', 'genhyperbolic',  # integration warnings
                       'tukeylambda',  # close, but doesn't meet tolerance
                       'vonmises',  # can have negative CDF; doesn't play nice
-                      'argus',  # doesn't meet tolerance; tested separately
+                      'arcsine', 'argus', 'powerlaw',  # don't meet tolerance
                       'poisson_binom',  # vector-valued shape parameter
                       }
 
     # Please keep this list in alphabetical order...
-    slow_basic_fit = {'alpha', 'anglit', 'arcsine', 'betabinom', 'bradford',
+    slow_basic_fit = {'alpha', 'anglit', 'betabinom', 'bradford',
                       'chi', 'chi2', 'crystalball', 'dweibull',
                       'erlang', 'exponnorm', 'exponpow', 'exponweib',
                       'fatiguelife', 'fisk', 'foldcauchy', 'foldnorm',
@@ -311,7 +312,7 @@ def cases_test_fit_mse():
                        'johnsonsb', 'kappa4', 'loguniform', 'mielke',
                        'nakagami', 'ncf', 'nchypergeom_fisher',
                        'nchypergeom_wallenius', 'nct', 'ncx2',
-                       'pearson3', 'powerlaw', 'powerlognorm',
+                       'pearson3', 'powerlognorm',
                        'rdist', 'reciprocal', 'rel_breitwigner', 'rice',
                        'trapezoid', 'truncnorm', 'truncweibull_min',
                        'vonmises_line', 'zipfian'}
@@ -375,8 +376,8 @@ class TestFit:
     rtol = 1e-2
     tols = {'atol': atol, 'rtol': rtol}
 
-    def opt(self, *args, **kwds):
-        return differential_evolution(*args, rng=1, **kwds)
+    def opt(self, *args, rng=1, **kwds):
+        return differential_evolution(*args, rng=rng, **kwds)
 
     def test_dist_iv(self):
         message = "`dist` must be an instance of..."
@@ -494,7 +495,7 @@ def test_guess_iv(self):
         with pytest.warns(RuntimeWarning, match=message):
             stats.fit(self.dist, self.data, self.shape_bounds_d, guess=guess)
 
-    def basic_fit_test(self, dist_name, method):
+    def basic_fit_test(self, dist_name, method, rng=1):
 
         N = 5000
         dist_data = dict(distcont + distdiscrete)
@@ -530,12 +531,13 @@ def basic_fit_test(self, dist_name, method):
 
     @pytest.mark.parametrize("dist_name", cases_test_fit_mle())
     def test_basic_fit_mle(self, dist_name):
-        self.basic_fit_test(dist_name, "mle")
+        self.basic_fit_test(dist_name, "mle", rng=5)
 
     @pytest.mark.parametrize("dist_name", cases_test_fit_mse())
     def test_basic_fit_mse(self, dist_name):
-        self.basic_fit_test(dist_name, "mse")
+        self.basic_fit_test(dist_name, "mse", rng=2)
 
+    @pytest.mark.slow
     def test_arcsine(self):
         # Can't guarantee that all distributions will fit all data with
         # arbitrary bounds. This distribution just happens to fail above.
@@ -546,8 +548,9 @@ def test_arcsine(self):
         shapes = (1., 2.)
         data = dist.rvs(*shapes, size=N, random_state=rng)
         shape_bounds = {'loc': (0.1, 10), 'scale': (0.1, 10)}
-        res = stats.fit(dist, data, shape_bounds, optimizer=self.opt)
-        assert_nlff_less_or_close(dist, data, res.params, shapes, **self.tols)
+        res = stats.fit(dist, data, shape_bounds, method='mse', optimizer=self.opt)
+        assert_nlff_less_or_close(dist, data, res.params, shapes,
+                                  nlff_name='_penalized_nlpsf', **self.tols)
 
     @pytest.mark.parametrize("method", ('mle', 'mse'))
     def test_argus(self, method):
@@ -561,8 +564,25 @@ def test_argus(self, method):
         data = dist.rvs(*shapes, size=N, random_state=rng)
         shape_bounds = {'chi': (0.1, 10), 'loc': (0.1, 10), 'scale': (0.1, 10)}
         res = stats.fit(dist, data, shape_bounds, optimizer=self.opt, method=method)
+        nlff_name = {'mle': 'nnlf', 'mse': '_penalized_nlpsf'}[method]
+        assert_nlff_less_or_close(dist, data, res.params, shapes, **self.tols,
+                                  nlff_name=nlff_name)
 
-        assert_nlff_less_or_close(dist, data, res.params, shapes, **self.tols)
+    @pytest.mark.xslow
+    def test_beta(self):
+        # Can't guarantee that all distributions will fit all data with
+        # arbitrary bounds. This distribution just happens to fail above.
+        # Try something slightly different.
+        N = 1000
+        rng = np.random.default_rng(self.seed)
+        dist = stats.beta
+        shapes = (2.3098496451481823, 0.62687954300963677, 1., 2.)
+        data = dist.rvs(*shapes, size=N, random_state=rng)
+        shape_bounds = {'a': (0.1, 10), 'b':(0.1, 10),
+                        'loc': (0.1, 10), 'scale': (0.1, 10)}
+        res = stats.fit(dist, data, shape_bounds, method='mle', optimizer=self.opt)
+        assert_nlff_less_or_close(dist, data, res.params, shapes,
+                                  nlff_name='nnlf', **self.tols)
 
     def test_foldnorm(self):
         # Can't guarantee that all distributions will fit all data with
@@ -578,6 +598,35 @@ def test_foldnorm(self):
 
         assert_nlff_less_or_close(dist, data, res.params, shapes, **self.tols)
 
+    def test_nakagami(self):
+        # Can't guarantee that all distributions will fit all data with
+        # arbitrary bounds. This distribution just happens to fail above.
+        # Try something slightly different.
+        N = 1000
+        rng = np.random.default_rng(self.seed)
+        dist = stats.nakagami
+        shapes = (4.9673794866666237, 1., 2.)
+        data = dist.rvs(*shapes, size=N, random_state=rng)
+        shape_bounds = {'nu':(0.1, 10), 'loc': (0.1, 10), 'scale': (0.1, 10)}
+        res = stats.fit(dist, data, shape_bounds, method='mle', optimizer=self.opt)
+        assert_nlff_less_or_close(dist, data, res.params, shapes,
+                                  nlff_name='nnlf', **self.tols)
+
+    @pytest.mark.slow
+    def test_powerlaw(self):
+        # Can't guarantee that all distributions will fit all data with
+        # arbitrary bounds. This distribution just happens to fail above.
+        # Try something slightly different.
+        N = 1000
+        rng = np.random.default_rng(self.seed)
+        dist = stats.powerlaw
+        shapes = (1.6591133289905851, 1., 2.)
+        data = dist.rvs(*shapes, size=N, random_state=rng)
+        shape_bounds = {'a': (0.1, 10), 'loc': (0.1, 10), 'scale': (0.1, 10)}
+        res = stats.fit(dist, data, shape_bounds, method='mse', optimizer=self.opt)
+        assert_nlff_less_or_close(dist, data, res.params, shapes,
+                                  nlff_name='_penalized_nlpsf', **self.tols)
+
     def test_truncpareto(self):
         # Can't guarantee that all distributions will fit all data with
         # arbitrary bounds. This distribution just happens to fail above.
@@ -592,7 +641,7 @@ def test_truncpareto(self):
 
         assert_nlff_less_or_close(dist, data, res.params, shapes, **self.tols)
 
-    @pytest.mark.fail_slow(5)
+    @pytest.mark.slow
     def test_truncweibull_min(self):
         # Can't guarantee that all distributions will fit all data with
         # arbitrary bounds. This distribution just happens to fail above.