We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent d6635b4 commit d0a3d83Copy full SHA for d0a3d83
source/partI/chapter4/dynamic_programming.rst
@@ -568,7 +568,7 @@ DP有时候被认为应用有限,因为 *维数灾难* ,状态的数量随
568
完全回溯更新与贝尔曼方程紧密相关:他们更像是这些状态转变为分配状态。
569
当回溯价值不再变化,满足相应贝尔曼方程的价值已经收敛。
570
正如有四个主要值函数(:math:`v_\pi`,:math:`v_*`,:math:`q_\pi` 和 :math:`q_*`)一样,
571
-有四个相应的贝尔曼方方程和四个相应的完全回溯。
+有四个相应的贝尔曼方程和四个相应的完全回溯。
572
*回溯图* 给出了一种DP回溯操作的直观看法。
573
574
深入DP方法,应该是几乎所有强化学习的方法,可以将他们看作是 *广义策略迭代* (GPI)。
0 commit comments