Skip to content

Commit ea61eb1

Browse files
authored
Merge pull request #15 from CFeng/patch-1
关于低奖励高价值的例子的翻译错误
2 parents 12bd6cf + c797f3c commit ea61eb1

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

source/chapter1/introduction.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -152,7 +152,7 @@
152152
虽然奖励信号表明了直接意义上的好处,但 *价值函数* 指定了长期收益。
153153
粗略地说,一个状态的价值是个体从该状态开始在未来可以预期累积的收益总额。
154154
虽然奖励决定了环境状态的直接,内在的价值,但价值表明了在考虑了可能遵循的状态和这些状态下可获得的奖励之后各状态的 *长期* 价值。
155-
例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的价值,因为其他状态经常会产生高回报
155+
例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的价值,因为其后的状态经常会产生高回报
156156
或者与此相反。
157157
以人类作类比,奖励有点像快乐(如果是高的奖励)和痛苦(如果是低的奖励),而价值则对应于我们对环境处于特定状态的高兴或不满的更精确和更有远见的判断。
158158

0 commit comments

Comments
 (0)