diff --git a/source/partI/chapter3/finite_markov_decision_process.rst b/source/partI/chapter3/finite_markov_decision_process.rst index 4d6f2ad..a4fbf87 100644 --- a/source/partI/chapter3/finite_markov_decision_process.rst +++ b/source/partI/chapter3/finite_markov_decision_process.rst @@ -215,7 +215,7 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。 在让机器人学会如何逃离迷宫时,在逃脱前经过的每一步的奖励通常为-1;这鼓励代理人尽快逃脱。 为了让机器人学会找到并收集空的汽水罐进行回收利用,人们可能会在大多数情况下给予奖励零,然后每收集一次空罐给+1的回报。 人们可能还想在机器人碰到东西或者有人大喊大叫时给予机器人负面的奖励。 -对于学习玩跳棋或国际象棋的代理人来说,获胜的自然奖励为+1,失败为-1,绘图和所有非终结位置为0。 +对于学习玩跳棋或国际象棋的代理人来说,获胜的自然奖励为+1,失败为-1,平局和所有非终结位置为0。 您可以看到所有这些示例中发生的情况。个体总是学会最大化其奖励。 如果我们希望它为我们做点什么,我们必须以这样的方式为它提供奖励,即在最大化它们的同时,个体也将实现我们的目标。