Skip to content

Commit 12bd6cf

Browse files
authored
Merge pull request #14 from Ynjxsjmh/patch-5
7.1 章 v⇡ 修正
2 parents 8b28fc6 + 11c6fc8 commit 12bd6cf

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

source/partI/chapter7/n_step_bootstrapping.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@ n步方法的概念通常用作 *资格迹* (第12章)算法思想的介绍
2424
7.1 :math:`n` 步TD预测
2525
---------------------------
2626

27-
蒙特卡罗和TD方法之间的方法空间是什么?考虑使用 :math:`\pi` 生成的样本回合估计v⇡
27+
蒙特卡罗和TD方法之间的方法空间是什么?考虑使用 :math:`\pi` 生成的样本回合估计 :math:`v_\pi`
2828
蒙特卡罗方法基于从该状态到回合结束的观察到的奖励的整个序列来执行每个状态的更新。
2929
另一方面,一步法TD方法的更新仅基于下一个奖励,一步之后从状态价值引导作为剩余奖励的代理。
3030
然后,一种中间方法将基于中间数量的奖励执行更新:多于一个,但是在终止之前少于所有奖励。

0 commit comments

Comments
 (0)