From 30b259f9bfb564c0a7c35d3db32767b13e41a255 Mon Sep 17 00:00:00 2001 From: Galin Wu Date: Mon, 15 Nov 2021 16:00:30 +0800 Subject: [PATCH] Update multi_armed_bandits.rst --- source/partI/chapter2/multi_armed_bandits.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/source/partI/chapter2/multi_armed_bandits.rst b/source/partI/chapter2/multi_armed_bandits.rst index 033ba32..65afd21 100644 --- a/source/partI/chapter2/multi_armed_bandits.rst +++ b/source/partI/chapter2/multi_armed_bandits.rst @@ -614,7 +614,7 @@ Gittins索引方法是 *贝叶斯* 方法的一个实例,它假定在动作价 这种不断发展的分布成为问题的 *信息状态*。 给定一个视野,比如1000步,人们可以考虑所有可能的行动,所有可能的结果奖励,所有可能的下一步行动,所有下一个奖励,等等所有1000个步骤。 给定假设,可以确定每个可能的事件链的奖励和概率,并且只需要选择最好的事件。 -但是,可能性树的增长非常迅速;即使只有两个动作和两个奖励,树也会有 :math:`2^2000` 个叶子。 +但是,可能性树的增长非常迅速;即使只有两个动作和两个奖励,树也会有 :math:`2^{2000}` 个叶子。 完全执行这种巨大的计算通常是不可行的,但也许它可以有效地近似。 这种方法将有效地将赌博机问题转化为完全强化学习问题的一个实例。 最后,我们可以使用近似强化学习方法,例如本书第二部分中介绍的方法来实现这一最优解。