修正 4.8 小节

Ynjxsjmh · web-flow · commit d0a3d83135ba · 2020-10-25T09:53:45.000+08:00
`贝尔曼方方程` 中的 `方` 重复了
diff --git a/source/partI/chapter4/dynamic_programming.rst b/source/partI/chapter4/dynamic_programming.rst
@@ -568,7 +568,7 @@ DP有时候被认为应用有限，因为 *维数灾难* ，状态的数量随
 完全回溯更新与贝尔曼方程紧密相关：他们更像是这些状态转变为分配状态。
 当回溯价值不再变化，满足相应贝尔曼方程的价值已经收敛。
 正如有四个主要值函数（:math:`v_\pi`，:math:`v_*`，:math:`q_\pi` 和 :math:`q_*`）一样，
-有四个相应的贝尔曼方方程和四个相应的完全回溯。
+有四个相应的贝尔曼方程和四个相应的完全回溯。
 *回溯图* 给出了一种DP回溯操作的直观看法。
 
 深入DP方法，应该是几乎所有强化学习的方法，可以将他们看作是 *广义策略迭代* （GPI）。