We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
2 parents 6aa72ec + 2098ab5 commit 8b28fc6Copy full SHA for 8b28fc6
source/partI/chapter5/monte_carlo_methods.rst
@@ -45,7 +45,7 @@
45
它表示遵循策略 :math:`\pi` 的情况下,状态 :math:`s` 的价值,
46
我们已经得到了一些回合,它们都遵循策略 :math:`\pi` 并且都出现了状态 :math:`s` 。
47
每当一个回合中出现状态 :math:`s`,我们就说这是对状态 :math:`s` 的一次 *访问*。
48
-当然,在一个中状态 :math:`s` 可能被访问多次,我们称第一次为 :math:`s` 的 *首次访问*。
+当然,在同一个回合中状态 :math:`s` 可能被访问多次,我们称第一次为 :math:`s` 的 *首次访问*。
49
所以我们有两种蒙特卡洛方法,一种只计算所有回合中首次访问状态 :math:`s` 的平均回报,
50
以此作为 :math:`v_\pi(s)` 的估计值,我们称之为 *首次访问MC方法* ;
51
与之对应的,另一种方法计算所有回合中每次访问状态 :math:`s` 的平均回报,我们称之为 *每次访问MC方法* 。
0 commit comments