We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
2 parents bbf8e8d + e09591a commit 8c71745Copy full SHA for 8c71745
source/partI/chapter4/dynamic_programming.rst
@@ -465,7 +465,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
465
------------------
466
467
到目前为止我们所讨论的DP方法一个主要的缺点是他们涉及整个MDP状态集合,也就是说,需要对整个状态集合进行更新。
468
-如果状态集非常大,即使一次更新也会代价很大。例如,五子棋有多于 :math:`10^20` 个状态。
+如果状态集非常大,即使一次更新也会代价很大。例如,五子棋有多于 :math:`10^{20}` 个状态。
469
即使我们能够一秒钟执行一百万个状态的价值迭代更新,也会花费一千年才能完成一次更新。
470
471
*异步* DP算法是就地迭代DP算法,并没有按照规则的状态集更新步骤进行组织。
0 commit comments