Skip to content

Commit 8b28fc6

Browse files
authored
Merge pull request #13 from Ynjxsjmh/patch-4
5.1 节翻译补充
2 parents 6aa72ec + 2098ab5 commit 8b28fc6

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

source/partI/chapter5/monte_carlo_methods.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -45,7 +45,7 @@
4545
它表示遵循策略 :math:`\pi` 的情况下,状态 :math:`s` 的价值,
4646
我们已经得到了一些回合,它们都遵循策略 :math:`\pi` 并且都出现了状态 :math:`s` 。
4747
每当一个回合中出现状态 :math:`s`,我们就说这是对状态 :math:`s` 的一次 *访问*。
48-
当然,在一个中状态 :math:`s` 可能被访问多次,我们称第一次为 :math:`s` 的 *首次访问*。
48+
当然,在同一个回合中状态 :math:`s` 可能被访问多次,我们称第一次为 :math:`s` 的 *首次访问*。
4949
所以我们有两种蒙特卡洛方法,一种只计算所有回合中首次访问状态 :math:`s` 的平均回报,
5050
以此作为 :math:`v_\pi(s)` 的估计值,我们称之为 *首次访问MC方法* ;
5151
与之对应的,另一种方法计算所有回合中每次访问状态 :math:`s` 的平均回报,我们称之为 *每次访问MC方法* 。

0 commit comments

Comments
 (0)