We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
2 parents 8b28fc6 + 11c6fc8 commit 12bd6cfCopy full SHA for 12bd6cf
source/partI/chapter7/n_step_bootstrapping.rst
@@ -24,7 +24,7 @@ n步方法的概念通常用作 *资格迹* (第12章)算法思想的介绍
24
7.1 :math:`n` 步TD预测
25
---------------------------
26
27
-蒙特卡罗和TD方法之间的方法空间是什么?考虑使用 :math:`\pi` 生成的样本回合估计v⇡。
+蒙特卡罗和TD方法之间的方法空间是什么?考虑使用 :math:`\pi` 生成的样本回合估计 :math:`v_\pi`。
28
蒙特卡罗方法基于从该状态到回合结束的观察到的奖励的整个序列来执行每个状态的更新。
29
另一方面,一步法TD方法的更新仅基于下一个奖励,一步之后从状态价值引导作为剩余奖励的代理。
30
然后,一种中间方法将基于中间数量的奖励执行更新:多于一个,但是在终止之前少于所有奖励。
0 commit comments