Merge pull request #11 from Ynjxsjmh/patch-2

qiwihui · web-flow · commit 8c717458c18b · 2020-10-25T15:10:00.000+08:00
4.5 节 10^20 显示出错
diff --git a/source/partI/chapter4/dynamic_programming.rst b/source/partI/chapter4/dynamic_programming.rst
@@ -465,7 +465,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 ------------------
 
 到目前为止我们所讨论的DP方法一个主要的缺点是他们涉及整个MDP状态集合，也就是说，需要对整个状态集合进行更新。
-如果状态集非常大，即使一次更新也会代价很大。例如，五子棋有多于 :math:`10^20` 个状态。
+如果状态集非常大，即使一次更新也会代价很大。例如，五子棋有多于 :math:`10^{20}` 个状态。
 即使我们能够一秒钟执行一百万个状态的价值迭代更新，也会花费一千年才能完成一次更新。
 
 *异步* DP算法是就地迭代DP算法，并没有按照规则的状态集更新步骤进行组织。