Skip to content

Commit d0a3d83

Browse files
authored
修正 4.8 小节
`贝尔曼方方程` 中的 `方` 重复了
1 parent d6635b4 commit d0a3d83

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

source/partI/chapter4/dynamic_programming.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -568,7 +568,7 @@ DP有时候被认为应用有限,因为 *维数灾难* ,状态的数量随
568568
完全回溯更新与贝尔曼方程紧密相关:他们更像是这些状态转变为分配状态。
569569
当回溯价值不再变化,满足相应贝尔曼方程的价值已经收敛。
570570
正如有四个主要值函数(:math:`v_\pi`,:math:`v_*`,:math:`q_\pi` 和 :math:`q_*`)一样,
571-
有四个相应的贝尔曼方方程和四个相应的完全回溯
571+
有四个相应的贝尔曼方程和四个相应的完全回溯
572572
*回溯图* 给出了一种DP回溯操作的直观看法。
573573

574574
深入DP方法,应该是几乎所有强化学习的方法,可以将他们看作是 *广义策略迭代* (GPI)。

0 commit comments

Comments
 (0)