Skip to content

Commit 6aa72ec

Browse files
authored
Merge pull request #12 from Ynjxsjmh/patch-3
修正 4.8 小节
2 parents 8c71745 + d0a3d83 commit 6aa72ec

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

source/partI/chapter4/dynamic_programming.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -568,7 +568,7 @@ DP有时候被认为应用有限,因为 *维数灾难* ,状态的数量随
568568
完全回溯更新与贝尔曼方程紧密相关:他们更像是这些状态转变为分配状态。
569569
当回溯价值不再变化,满足相应贝尔曼方程的价值已经收敛。
570570
正如有四个主要值函数(:math:`v_\pi`,:math:`v_*`,:math:`q_\pi` 和 :math:`q_*`)一样,
571-
有四个相应的贝尔曼方方程和四个相应的完全回溯
571+
有四个相应的贝尔曼方程和四个相应的完全回溯
572572
*回溯图* 给出了一种DP回溯操作的直观看法。
573573

574574
深入DP方法,应该是几乎所有强化学习的方法,可以将他们看作是 *广义策略迭代* (GPI)。

0 commit comments

Comments
 (0)