Skip to content

Commit 0a1ca5f

Browse files
committed
fix: fix building pdf
1 parent 72baafc commit 0a1ca5f

16 files changed

+200
-209
lines changed
Lines changed: 13 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -1,37 +1,37 @@
11
name: Deploy to GitHub Pages
22
on:
33
push:
4-
branches:
5-
- master
4+
65
jobs:
76
build-and-deploy:
87
runs-on: ubuntu-latest
8+
container:
9+
image: qiwihui/docker-sphinx-cjk-pdf
910
steps:
1011
- name: Checkout
1112
uses: actions/checkout@v1
12-
13-
- name: Set up Python 3.6
14-
uses: actions/setup-python@v1
15-
with:
16-
python-version: 3.6
17-
1813
- name: Install dependencies
1914
run: |
20-
python -m pip install --upgrade pip
21-
pip install -r requirements.txt
22-
15+
pip3 install -U -r requirements.txt
2316
- name: Build sphinx documentation
2417
run: |
2518
make html
26-
2719
- name: Setup github pages domain
2820
run: |
2921
touch build/html/.nojekyll
3022
echo "${{ secrets.GH_DOMAIN }}" > build/html/CNAME
31-
23+
apt update && apt install -y git rsync
3224
- name: Deploy
3325
uses: JamesIves/github-pages-deploy-action@releases/v3
3426
with:
3527
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
3628
BRANCH: gh-pages
3729
FOLDER: build/html
30+
- name: build pdf
31+
run: |
32+
make latexpdf
33+
- uses: actions/upload-artifact@v2
34+
if: ${{ always() }}
35+
with:
36+
name: pdf
37+
path: build/latex/reinforcement-learning-an-introduction-chinese.pdf

source/conf.py

Lines changed: 4 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -154,16 +154,12 @@
154154
'pointsize': '11pt',
155155
'preamble': r'''
156156
\usepackage{xeCJK}
157-
\setCJKmainfont[BoldFont=STZhongsong, ItalicFont=STKaiti]{STSong}
158-
\setCJKsansfont[BoldFont=STHeiti]{STXihei}
159-
\setCJKmonofont{STFangsong}
157+
\usepackage{indentfirst}
158+
\setlength{\parindent}{2em}
159+
\setCJKmainfont{Noto Sans CJK SC}
160+
\setCJKmonofont{Noto Sans Mono CJK SC}
160161
\XeTeXlinebreaklocale "zh"
161162
\XeTeXlinebreakskip = 0pt plus 1pt
162-
\parindent 2em
163-
\definecolor{VerbatimColor}{rgb}{0.95,0.95,0.95}
164-
\setcounter{tocdepth}{3}
165-
\renewcommand\familydefault{\ttdefault}
166-
\renewcommand\CJKfamilydefault{\CJKrmdefault}
167163
'''
168164
}
169165

source/partI/chapter2/multi_armed_bandits.rst

Lines changed: 16 additions & 16 deletions
Original file line numberDiff line numberDiff line change
@@ -105,7 +105,7 @@
105105

106106
为了粗略评估贪婪和 :math:`\varepsilon` 贪婪行动价值方法的相对有效性,
107107
我们在一系列测试问题上对它们进行了数值比较。这是一组2000个随机生成的 :math:`k` 臂赌博机问题,:math:`k = 10`。
108-
对于每个赌博机问题,如图2.1所示,动作价值 :math:`q_*(a)a = 1 , \dots, 10`,
108+
对于每个赌博机问题,如图2.1所示,动作价值 :math:`q_*(a), a = 1, \dots, 10`,
109109
根据具有均值为0和方差为1的正态(高斯)分布来选择。
110110

111111
.. _figure_2.1:
@@ -150,7 +150,7 @@
150150
即使基础任务是固定的和确定的,学习者也面临着一系列类似赌博机的决策任务,随着学习的进行和个体的决策制定策略的变化,这些决策随着时间的推移而变化。
151151
强化学习需要在探索和利用之间取得平衡。
152152

153-
*练习2.2* 赌博机示例 考虑具有 :math:`k=4` 动作的:math:`k` 臂赌博机问题,表示为1,2,3和4。
153+
*练习2.2* 赌博机示例 考虑具有 :math:`k=4` 动作的 :math:`k` 臂赌博机问题,表示为1,2,3和4。
154154
对于此问题,考虑使用 :math:`\varepsilon` 贪婪动作选择,样本平均动作值估计的赌博机算法,
155155
对于所有a,初始估计为 :math:`Q_1(a)=0`。
156156
假设动作和奖励的初始序列是 :math:`A_1 = 1`,:math:`R_1 = 1`,:math:`A_2 = 2`,
@@ -184,14 +184,14 @@
184184
.. math::
185185
:label: 2.3
186186
187-
\begin{align*}
187+
\begin{aligned}
188188
Q_{n+1} &= \frac{1}{n}\sum_{i=1}^{n}R_i \\
189189
&= \frac{1}{n}(R_n + \sum_{i=1}^{n-1}R_i) \\
190190
&= \frac{1}{n}(R_n + (n-1)\frac{1}{n-1} \sum_{i=1}^{n-1}R_i) \\
191191
&= \frac{1}{n}(R_n + (n-1)Q_n) \\
192192
&= \frac{1}{n}(R_n + nQ_n-Q_n) \\
193193
&= Q_n + \frac{1}{n}(R_n - Q_n)
194-
\end{align*}
194+
\end{aligned}
195195
196196
即使对于 :math:`n=1` 也保持,对于任意 :math:`Q_1`,获得 :math:`Q_2 = R_1`。
197197
该实现仅需要 :math:`Q_n` 和 n 的存储器,并且每个新的奖励仅需要小的计算(2.3)。
@@ -257,14 +257,14 @@
257257
.. math::
258258
:label: 2.6
259259
260-
\begin{align*}
260+
\begin{aligned}
261261
Q_{n+1} &= Q_n + \alpha(R_n - Q_n) \\
262262
&= \alpha R_n + (1-\alpha)Q_n \\
263263
&= \alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1-\alpha)Q_{n-1}] \\
264264
&= \alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)^2 \alpha R_{n-2} + \\
265265
& \qquad \qquad \dots + (1-\alpha)^{n-1}\alpha R_1 + (1-\alpha)^nQ_1 \\
266266
&= (1-\alpha)^nQ_1 + \sum_{i=1}^{n}\alpha(1-\alpha)^{n-i}R_i
267-
\end{align*}
267+
\end{aligned}
268268
269269
我们称之为加权平均值,
270270
因为权重之和为 :math:`(1-\alpha)^n + \sum_{i=1}^{n}\alpha(1-\alpha)^{n-i} = 1`,
@@ -422,10 +422,10 @@
422422
.. math::
423423
:label: 2.12
424424
425-
\begin{align*}
425+
\begin{aligned}
426426
H_{t+1}(A_t) &\doteq H_t(A_t) + \alpha(R_t-\overline{R}_t)(1-\pi_t(A_t)), &和 \\
427427
H_{t+1}(a) &\doteq H_t(a) - \alpha(R_t-\overline{R}_t)\pi_t(a),&对所有 a \ne A_t
428-
\end{align*}
428+
\end{aligned}
429429
430430
其中 :math:`\alpha>0` 是步长参数,:math:`\overline{R}_t \in \mathbb(R)` 是所有奖励的平均值,
431431
包括时间t,可以按照第2.4节(或第2.5节,如果问题是非平稳的)所述逐步计算。
@@ -467,11 +467,11 @@
467467

468468
.. math::
469469
470-
\begin{align*}
470+
\begin{aligned}
471471
\frac{\partial \mathbb{E}[R_t]}{\partial H_t(a)} &= \frac{\partial}{\partial H_t(a)}\left[\sum_{x}\pi_t(x)q_*(x)\right] \\
472472
&= \sum_{x}q_*(x)\frac{\partial \pi_t(x)}{\partial H_t(a)} \\
473473
&= \sum_{x}(q_*(x)-B_t)\frac{\partial \pi_t(x)}{\partial H_t(a)}
474-
\end{align*}
474+
\end{aligned}
475475
476476
其中 :math:`B_t` 称为 *基线*,可以是任何不依赖于x的标量。我们可以在这里包括基线而不改变相等性,
477477
因为梯度在所有动作上总和为零,:math:`\sum_{x}\frac{\partial \pi_t(x)}{\partial H_t(a)} = 0`,
@@ -488,10 +488,10 @@
488488

489489
.. math::
490490
491-
\begin{align*}
491+
\begin{aligned}
492492
&= \mathbb{E}\left[ (q_*(A_t)-B_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t) \right] \\
493493
&= \mathbb{E}\left[ (R_t-\overline{R}_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t) \right]
494-
\end{align*}
494+
\end{aligned}
495495
496496
这里我们选择了基线 :math:`B_t=\overline{R}_t` 和替换 :math:`R_t` 为 :math:`q_*(A_t)`,
497497
这是允许的,因为 :math:`\mathbb{E}[R_t|A_t] = q_*(A_t)`。
@@ -500,10 +500,10 @@
500500

501501
.. math::
502502
503-
\begin{align*}
503+
\begin{aligned}
504504
&= \mathbb{E}\left[ (R_t-\overline{R}_t) \pi_t(A_t) (\mathbb{1}_{a=A_t}-\pi_t(a))/\pi_t(A_t) \right] \\
505505
&= \mathbb{E}\left[ (R_t-\overline{R}_t)(\mathbb{1}_{a=A_t}-\pi_t(a)) \right]
506-
\end{align*}
506+
\end{aligned}
507507
508508
回想一下,我们的计划是将性能梯度编写为我们可以在每个步骤上采样的预期,就像我们刚刚完成的那样,
509509
然后更新与样本成比例的每个步骤。将上述期望的样本替换为(2.13)中的性能梯度,得出:
@@ -526,15 +526,15 @@
526526

527527
.. math::
528528
529-
\begin{align*}
529+
\begin{aligned}
530530
\frac{\partial \pi_t(x)}{\partial H_t(a)} &= \frac{\partial}{\partial H_t(a)}\pi_t(x) \\
531531
&= \frac{\partial}{\partial H_t(a)}\left[ \frac{e^{H_t(x)}}{\sum_{y=1}^{k}e^{H_t(y)}} \right] \\
532532
&= \frac{ \frac{\partial e^{H_t(x)}}{\partial H_t(a)} \sum_{y=1}^{k}e^{H_t(y)} - e^{H_t(x)}\frac{\partial \sum_{y=1}^{k}e^{H_t(y)}}{\partial H_t(a)} }{(\sum_{y=1}^{k}e^{H_t(y)})^2} \\
533533
&= \frac{ \mathbb{1}_{a=x}e_{H_t(x)}\sum_{y=1}^{k}e^{H_t(y)} - e^{H_t(x)}e^{H_t(a)} }{(\sum_{y=1}^{k}e^{H_t(y)})^2} (因为 \frac{\partial e^x}{\partial x}=e^x) \\
534534
&= \frac{\mathbb{1}_{a=x}e_{H_t(x)}}{\sum_{y=1}^{k}e^{H_t(y)}} - \frac{e^{H_t(x)}e^{H_t(a)}}{(\sum_{y=1}^{k}e^{H_t(y)})^2} \\
535535
&= \mathbb{1}_{a=x}\pi_t(x) - \pi_t(x)\pi_t(a) \\
536536
&= \pi_t(x)(\mathbb{1}_{a=x} - \pi_t(a)) &Q.E.D.
537-
\end{align*}
537+
\end{aligned}
538538
539539
我们刚刚表明,梯度赌博机算法的预期更新等于预期奖励的梯度,因此该算法是随机梯度上升的实例。
540540
这确保了该算法具有稳健的收敛特性。

source/partI/chapter3/finite_markov_decision_process.rst

Lines changed: 12 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -277,11 +277,11 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
277277
.. math::
278278
:label: 3.9
279279
280-
\begin{align*}
280+
\begin{aligned}
281281
G_{t} &\doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + \dots \\
282282
&= R_{t+1} + \gamma(R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + \dots) \\
283283
&= R_{t+1} + \gamma G_{t+1}
284-
\end{align*}
284+
\end{aligned}
285285
286286
请注意,这适用于所有时间步骤 :math:`t<T`,即使终止发生在 :math:`t+1`,如果我们定义 :math:`G_T=0`,也是适用的。
287287
这通常可以很容易地计算奖励序列的回报。
@@ -429,12 +429,12 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
429429
.. math::
430430
:label: 3.14
431431
432-
\begin{align*}
432+
\begin{aligned}
433433
v_\pi(s) &\doteq \mathbb{E}_\pi[G_t|S_t=s] \\
434434
&= \mathbb{E}_\pi[R_{t+1} + \gamma G_{t+1}|S_t=s] (由 (3.9)) \\
435435
&= \sum_a\pi(a|s) \sum_{s^\prime}\sum_r p(s^\prime,r|s,a) \left[r+\gamma\mathbb{E}_\pi[G_{t+1}|S_{t+1}=s^\prime]\right] \\
436436
&= \sum_a\pi(a|s) \sum_{s^\prime,r}p(s^\prime,r|s,a)[r+\gamma v_\pi(s^\prime)], 对所有 s\in\mathcal{S}
437-
\end{align*}
437+
\end{aligned}
438438
439439
其中隐含的动作 :math:`a` 取自集合 :math:`\mathcal{A}(s)`,
440440
下一个状态 :math:`s^\prime` 取自集合 :math:`\mathcal{S}`
@@ -609,23 +609,23 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
609609

610610
.. math::
611611
612-
\begin{align*}
612+
\begin{aligned}
613613
v_*(s) &= \max_{a\in\mathcal{A}(s)} q_{\pi_*}(s,a) \\
614614
&=\max_a \mathbb{E}_{\pi_*}[G_t|S_t=s,A_t=a] \\
615615
&=\max_a \mathbb{E}_{\pi_*}[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a] &(由(3.9)式) \\
616616
&=\max_a \mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1})|S_t=s,A_t=a] &(3.18) \\
617617
&=\max_{a\in \mathcal{A}(s)}\sum_{s^\prime,r} p(s^\prime,r|s,a)[r+\gamma v_*(s^\prime)] &(3.19)
618-
\end{align*}
618+
\end{aligned}
619619
620620
最后两个方程是 :math:`v_*` 的贝尔曼最优方程的两种形式,:math:`q_*` 的贝尔曼最优方程为
621621

622622
.. math::
623623
:label: 3.20
624624
625-
\begin{align*}
625+
\begin{aligned}
626626
q_*(s,a) &= \mathbb{E}\left[R_{t+1}+\gamma\sum_{a^\prime}q_*(S_{t+1,a^\prime})|S_t=s,A_t=a\right] \\
627627
&=\sum_{s^\prime,r}p(s^\prime,r|s,a)[r+\gamma \max_{a^\prime}q_*(s^\prime,a^\prime)]
628-
\end{align*}
628+
\end{aligned}
629629
630630
下图中的备份图以图像方式显示了在 :math:`v_*` 和 :math:`q_*` 的贝尔曼最优方程中考虑的未来状态和动作的跨度。
631631
这些与 :math:`v_\pi` 和 :math:`q_\pi` 的备份图相同,只是在个体选择点添加了弧,以表示选择的最大值,而不是给定一些策略的期望值。
@@ -679,7 +679,7 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
679679

680680
.. math::
681681
682-
\begin{align*}
682+
\begin{aligned}
683683
v_*(h)&=\max\left\{
684684
\begin{array}{lr}
685685
p(h|h,s)[r(h,s,h)+\gamma v_*(h)]+p(l|h,s)[r(h,s,l)+\gamma v_*(l)],\\
@@ -695,18 +695,18 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
695695
r_s+\gamma[\alpha v_*(h)+(1-\alpha)v_*(l)],\\
696696
r_w + \gamma v_*(h)
697697
\end{array}\right\}
698-
\end{align*}
698+
\end{aligned}
699699
700700
按照与 :math:`v_*(l)` 相同的方式得到等式
701701

702702
.. math::
703703
704704
v_*(l)=\max\left\{
705-
\begin{align*}
705+
\begin{aligned}
706706
&\beta r_s - 3(1-\beta)+\gamma[(1-\beta)v_*(h)+\beta v_*(l)], \\
707707
&r_w + \gamma v_*(l),\\
708708
&\gamma v_*(h)
709-
\end{align*}
709+
\end{aligned}
710710
\right\}
711711
712712
对于任何 :math:`r_s`,:math:`r_w`,:math:`\alpha`,:math:`\beta` 和 :math:`\gamma` 的选择,

source/partI/chapter4/dynamic_programming.rst

Lines changed: 16 additions & 18 deletions
Original file line numberDiff line numberDiff line change
@@ -22,20 +22,20 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
2222
.. math::
2323
:label: 4.1
2424
25-
\begin{align*}
25+
\begin{aligned}
2626
v_*(s) &= \max_a\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1}) | S_t=s,A_t=a] \\
2727
&= \max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')]
28-
\end{align*}
28+
\end{aligned}
2929
3030
或者
3131

3232
.. math::
3333
:label: 4.2
3434
35-
\begin{align*}
35+
\begin{aligned}
3636
q_*(s,a)& = \mathbb{E}[R_{t+1}+\gamma \max_{a'} q_*(S_{t+1},a') | S_t=s,A_t=a]\\
3737
&=\sum_{s',r}p(s',r|s,a)[r+\gamma\max_{a'} q_*(s',a')],
38-
\end{align*}
38+
\end{aligned}
3939
4040
对于所有的 :math:`s\in\mathcal{S}`,:math:`a\in\mathcal{A}(s)`,
4141
以及 :math:`s^\prime\in\mathcal{S^+}` 。
@@ -50,12 +50,12 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
5050

5151
.. math::
5252
53-
\begin{align}
53+
\begin{aligned}
5454
v_\pi(s) & \doteq \mathbb{E_\pi}[G_t | S_t=s] \\
5555
&= \mathbb{E_\pi}[R_{t+1} + \gamma G_{t+1} | S_t=s] &(从(3.9)) \\
56-
&= \mathbb{E_\pi}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s] & \tag{4.3} \\
57-
&= \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')],& \tag{4.4}
58-
\end{align}
56+
&= \mathbb{E_\pi}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s] & (4.3) \\
57+
&= \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')],& (4.4)
58+
\end{aligned}
5959
6060
在这里 :math:`\pi(a|s)` 是在状态 :math:`s` 时使用策略 :math:`\pi` 采取动作 :math:`a` 的概率,
6161
期望下标 :math:`\pi` 用来表明是在策略 :math:`\pi` 的条件下。
@@ -73,10 +73,10 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
7373
.. math::
7474
:label: 4.5
7575
76-
\begin{align}
76+
\begin{aligned}
7777
v_{k+1}(s)& \overset{\cdot}{=}\mathbb{E}[R_{t+1}+\gamma v_k(S_{t+1}) | S_t=s] \\
7878
&= \sum_{a}\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma{v_k(s')}],
79-
\end{align}
79+
\end{aligned}
8080
8181
对于所有的 :math:`s\in\mathcal{S}`。很明显, :math:`v_k=v_\pi` 是这种更新规则下的不动点,
8282
因为关于 :math:`v_\pi` 贝尔曼方程可以保证等号的成立。实际上,只要在相同的条件下保证 :math:`v_\pi` 的存在,
@@ -175,10 +175,10 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
175175
.. math::
176176
:label: 4.6
177177
178-
\begin{align*}
178+
\begin{aligned}
179179
q_\pi(s,a)& \doteq \mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=a] \\
180180
&= \sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]
181-
\end{align*}
181+
\end{aligned}
182182
183183
关键的标准是这等式是大于还是小于 :math:`v_{\pi}`。如果是大于——也就是说,
184184
在状态 :math:`s` 选择执行一次动作 :math:`a` 然后遵从策略 :math:`\pi`
@@ -192,7 +192,6 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
192192
:label: 4.7
193193
194194
q_\pi(s,\pi'(s)) \geq v_\pi(s)
195-
\tag{4.7}
196195
197196
那么策略 :math:`\pi'` 必须与策略 :math:`\pi` 同样好或者比策略 :math:`\pi` 更好。
198197
也就是说,必须从所有的状态 :math:`s\in\mathcal{S}` 取得更好或者相等的期望回报:
@@ -201,7 +200,6 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
201200
:label: 4.8
202201
203202
v_\pi'(s) \geq v_\pi(s)
204-
\tag{4.8}
205203
206204
另外,如果 :math:`(4.7)` 在任意状态严格不等,那么 :math:`(4.8)` 也应该至少在一个状态严格等。
207205
这个结果尤其适用于我们在之前考虑的两种策略,一个最初的确定的策略 :math:`\pi` 和一个改变的策略 :math:`\pi'`,
@@ -214,7 +212,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
214212

215213
.. math::
216214
217-
\begin{align}
215+
\begin{aligned}
218216
v_\pi(s)& \leq q_\pi(s,\pi'(s))\\
219217
&= \mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=\pi'(s)] & (由(4.6))\\
220218
&= \mathbb{E}_{\pi'}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s] \\
@@ -225,7 +223,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
225223
& \vdots \\
226224
& \leq \mathbb{E}_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\gamma^3R_{t+4}+\cdots | S_t=s] \\
227225
&=v_{\pi'}(s)
228-
\end{align}
226+
\end{aligned}
229227
230228
目前为止我们看到当给定一个策略和它的价值函数后,我们可以很容易地对在某个状态的动作改变进行评估。
231229
很自然就会扩展到考虑所有状态和所有可能的动作,根据 :math:`q_\pi(s,a)` 选择在每个状态最好的动作。
@@ -234,11 +232,11 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
234232
.. math::
235233
:label: 4.9
236234
237-
\begin{align*}
235+
\begin{aligned}
238236
\pi'(s)& \doteq \arg\max_a q_\pi(s,a) \\
239237
& =\arg \max_a\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=a]\\
240238
&=\arg\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')],
241-
\end{align*}
239+
\end{aligned}
242240
243241
其中 :math:`\arg\max_a` 表示随后的表达式最大化(随意打破关系)的 :math:`a` 的值。
244242
贪婪策略采取短期内看起来最好的动作——向前展望一步——根据 :math:`v_\pi`。

0 commit comments

Comments
 (0)