Merge pull request #12 from Ynjxsjmh/patch-3

qiwihui · web-flow · commit 6aa72ec5e67d · 2020-10-25T15:10:33.000+08:00
修正 4.8 小节
diff --git a/source/partI/chapter4/dynamic_programming.rst b/source/partI/chapter4/dynamic_programming.rst
@@ -568,7 +568,7 @@ DP有时候被认为应用有限，因为 *维数灾难* ，状态的数量随
 完全回溯更新与贝尔曼方程紧密相关：他们更像是这些状态转变为分配状态。
 当回溯价值不再变化，满足相应贝尔曼方程的价值已经收敛。
 正如有四个主要值函数（:math:`v_\pi`，:math:`v_*`，:math:`q_\pi` 和 :math:`q_*`）一样，
-有四个相应的贝尔曼方方程和四个相应的完全回溯。
+有四个相应的贝尔曼方程和四个相应的完全回溯。
 *回溯图* 给出了一种DP回溯操作的直观看法。
 
 深入DP方法，应该是几乎所有强化学习的方法，可以将他们看作是 *广义策略迭代* （GPI）。