Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion source/partI/chapter2/multi_armed_bandits.rst
Original file line number Diff line number Diff line change
Expand Up @@ -614,7 +614,7 @@ Gittins索引方法是 *贝叶斯* 方法的一个实例,它假定在动作价
这种不断发展的分布成为问题的 *信息状态*。
给定一个视野,比如1000步,人们可以考虑所有可能的行动,所有可能的结果奖励,所有可能的下一步行动,所有下一个奖励,等等所有1000个步骤。
给定假设,可以确定每个可能的事件链的奖励和概率,并且只需要选择最好的事件。
但是,可能性树的增长非常迅速;即使只有两个动作和两个奖励,树也会有 :math:`2^2000` 个叶子。
但是,可能性树的增长非常迅速;即使只有两个动作和两个奖励,树也会有 :math:`2^{2000}` 个叶子。
完全执行这种巨大的计算通常是不可行的,但也许它可以有效地近似。
这种方法将有效地将赌博机问题转化为完全强化学习问题的一个实例。
最后,我们可以使用近似强化学习方法,例如本书第二部分中介绍的方法来实现这一最优解。
Expand Down