We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
2 parents 12bd6cf + c797f3c commit ea61eb1Copy full SHA for ea61eb1
source/chapter1/introduction.rst
@@ -152,7 +152,7 @@
152
虽然奖励信号表明了直接意义上的好处,但 *价值函数* 指定了长期收益。
153
粗略地说,一个状态的价值是个体从该状态开始在未来可以预期累积的收益总额。
154
虽然奖励决定了环境状态的直接,内在的价值,但价值表明了在考虑了可能遵循的状态和这些状态下可获得的奖励之后各状态的 *长期* 价值。
155
-例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的价值,因为其他状态经常会产生高回报。
+例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的价值,因为其后的状态经常会产生高回报。
156
或者与此相反。
157
以人类作类比,奖励有点像快乐(如果是高的奖励)和痛苦(如果是低的奖励),而价值则对应于我们对环境处于特定状态的高兴或不满的更精确和更有远见的判断。
158
0 commit comments