qiwihui
diff --git a/‎.github/workflows/deploy-to-gh-pages.yml‎
Lines changed: 13 additions & 13 deletions b/‎.github/workflows/deploy-to-gh-pages.yml‎
Lines changed: 13 additions & 13 deletions
diff --git a/‎source/conf.py‎
Lines changed: 4 additions & 8 deletions b/‎source/conf.py‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎source/partI/chapter2/multi_armed_bandits.rst‎
Lines changed: 16 additions & 16 deletions b/‎source/partI/chapter2/multi_armed_bandits.rst‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎source/partI/chapter3/finite_markov_decision_process.rst‎
Lines changed: 12 additions & 12 deletions b/‎source/partI/chapter3/finite_markov_decision_process.rst‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎source/partI/chapter4/dynamic_programming.rst‎
Lines changed: 16 additions & 18 deletions b/‎source/partI/chapter4/dynamic_programming.rst‎
Lines changed: 16 additions & 18 deletions
@@ -1,37 +1,37 @@
 name: Deploy to GitHub Pages
 on:
   push:
-    branches:
-      - master
+
 jobs:
   build-and-deploy:
     runs-on: ubuntu-latest
+    container:
+      image: qiwihui/docker-sphinx-cjk-pdf
     steps:
     - name: Checkout
       uses: actions/checkout@v1
-    
-    - name: Set up Python 3.6
-      uses: actions/setup-python@v1
-      with:
-        python-version: 3.6
-
     - name: Install dependencies
       run: |
-        python -m pip install --upgrade pip
-        pip install -r requirements.txt
-
+        pip3 install -U -r requirements.txt
     - name: Build sphinx documentation
       run: |
         make html
-        
     - name: Setup github pages domain
       run: |
         touch build/html/.nojekyll
         echo "${{ secrets.GH_DOMAIN }}" > build/html/CNAME
-
+        apt update && apt install -y git rsync
     - name: Deploy
       uses: JamesIves/github-pages-deploy-action@releases/v3
       with:
         GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
         BRANCH: gh-pages
         FOLDER: build/html
+    - name: build pdf
+      run: |
+        make latexpdf
+    - uses: actions/upload-artifact@v2
+      if: ${{ always() }}
+      with:
+        name: pdf
+        path: build/latex/reinforcement-learning-an-introduction-chinese.pdf
@@ -154,16 +154,12 @@
         'pointsize': '11pt',
         'preamble': r'''
 \usepackage{xeCJK}
-\setCJKmainfont[BoldFont=STZhongsong, ItalicFont=STKaiti]{STSong}
-\setCJKsansfont[BoldFont=STHeiti]{STXihei}
-\setCJKmonofont{STFangsong}
+\usepackage{indentfirst}
+\setlength{\parindent}{2em}
+\setCJKmainfont{Noto Sans CJK SC}
+\setCJKmonofont{Noto Sans Mono CJK SC}
 \XeTeXlinebreaklocale "zh"
 \XeTeXlinebreakskip = 0pt plus 1pt
-\parindent 2em
-\definecolor{VerbatimColor}{rgb}{0.95,0.95,0.95}
-\setcounter{tocdepth}{3}
-\renewcommand\familydefault{\ttdefault}
-\renewcommand\CJKfamilydefault{\CJKrmdefault}
 '''
     }
 
 
@@ -105,7 +105,7 @@
 
 为了粗略评估贪婪和 :math:`\varepsilon` 贪婪行动价值方法的相对有效性，
 我们在一系列测试问题上对它们进行了数值比较。这是一组2000个随机生成的 :math:`k` 臂赌博机问题，:math:`k = 10`。
-对于每个赌博机问题，如图2.1所示，动作价值 :math:`q_*(a)，a = 1 , \dots, 10`，
+对于每个赌博机问题，如图2.1所示，动作价值 :math:`q_*(a), a = 1, \dots, 10`，
 根据具有均值为0和方差为1的正态（高斯）分布来选择。
 
 .. _figure_2.1:
@@ -150,7 +150,7 @@
 即使基础任务是固定的和确定的，学习者也面临着一系列类似赌博机的决策任务，随着学习的进行和个体的决策制定策略的变化，这些决策随着时间的推移而变化。
 强化学习需要在探索和利用之间取得平衡。
 
-*练习2.2* 赌博机示例 考虑具有 :math:`k=4` 动作的:math:`k` 臂赌博机问题，表示为1，2，3和4。
+*练习2.2* 赌博机示例 考虑具有 :math:`k=4` 动作的 :math:`k` 臂赌博机问题，表示为1，2，3和4。
 对于此问题，考虑使用 :math:`\varepsilon` 贪婪动作选择，样本平均动作值估计的赌博机算法，
 对于所有a，初始估计为 :math:`Q_1(a)=0`。
 假设动作和奖励的初始序列是 :math:`A_1 = 1`，:math:`R_1 = 1`，:math:`A_2 = 2`，
@@ -184,14 +184,14 @@
 .. math::
     :label: 2.3
 
-    \begin{align*}
+    \begin{aligned}
     Q_{n+1} &= \frac{1}{n}\sum_{i=1}^{n}R_i \\
             &= \frac{1}{n}(R_n + \sum_{i=1}^{n-1}R_i) \\
             &= \frac{1}{n}(R_n + (n-1)\frac{1}{n-1} \sum_{i=1}^{n-1}R_i) \\
             &= \frac{1}{n}(R_n + (n-1)Q_n) \\
             &= \frac{1}{n}(R_n + nQ_n-Q_n) \\
             &= Q_n + \frac{1}{n}(R_n - Q_n)
-    \end{align*}
+    \end{aligned}
 
 即使对于 :math:`n=1` 也保持，对于任意 :math:`Q_1`，获得 :math:`Q_2 = R_1`。
 该实现仅需要 :math:`Q_n` 和 n 的存储器，并且每个新的奖励仅需要小的计算（2.3）。
@@ -257,14 +257,14 @@
 .. math::
     :label: 2.6
 
-    \begin{align*}
+    \begin{aligned}
     Q_{n+1} &= Q_n + \alpha(R_n - Q_n) \\
     &= \alpha R_n + (1-\alpha)Q_n \\
     &= \alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1-\alpha)Q_{n-1}] \\
     &= \alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)^2 \alpha R_{n-2} + \\
     & \qquad \qquad \dots + (1-\alpha)^{n-1}\alpha R_1 + (1-\alpha)^nQ_1 \\
     &= (1-\alpha)^nQ_1 + \sum_{i=1}^{n}\alpha(1-\alpha)^{n-i}R_i
-    \end{align*}
+    \end{aligned}
 
 我们称之为加权平均值，
 因为权重之和为 :math:`(1-\alpha)^n + \sum_{i=1}^{n}\alpha(1-\alpha)^{n-i} = 1`，
@@ -422,10 +422,10 @@
 .. math::
     :label: 2.12
 
-    \begin{align*}
+    \begin{aligned}
     H_{t+1}(A_t) &\doteq H_t(A_t) + \alpha(R_t-\overline{R}_t)(1-\pi_t(A_t))， &和 \\
     H_{t+1}(a) &\doteq H_t(a) - \alpha(R_t-\overline{R}_t)\pi_t(a)，&对所有 a \ne A_t
-    \end{align*}
+    \end{aligned}
 
 其中 :math:`\alpha>0` 是步长参数，:math:`\overline{R}_t \in \mathbb(R)` 是所有奖励的平均值，
 包括时间t，可以按照第2.4节（或第2.5节，如果问题是非平稳的）所述逐步计算。
@@ -467,11 +467,11 @@
 
     .. math::
 
-        \begin{align*}
+        \begin{aligned}
         \frac{\partial \mathbb{E}[R_t]}{\partial H_t(a)} &= \frac{\partial}{\partial H_t(a)}\left[\sum_{x}\pi_t(x)q_*(x)\right] \\
         &= \sum_{x}q_*(x)\frac{\partial \pi_t(x)}{\partial H_t(a)} \\
         &= \sum_{x}(q_*(x)-B_t)\frac{\partial \pi_t(x)}{\partial H_t(a)}
-        \end{align*}
+        \end{aligned}
 
     其中 :math:`B_t` 称为 *基线*，可以是任何不依赖于x的标量。我们可以在这里包括基线而不改变相等性，
     因为梯度在所有动作上总和为零，:math:`\sum_{x}\frac{\partial \pi_t(x)}{\partial H_t(a)} = 0`，
@@ -488,10 +488,10 @@
 
     .. math::
 
-        \begin{align*}
+        \begin{aligned}
         &= \mathbb{E}\left[ (q_*(A_t)-B_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t) \right] \\
         &= \mathbb{E}\left[ (R_t-\overline{R}_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t) \right]
-        \end{align*}
+        \end{aligned}
 
     这里我们选择了基线 :math:`B_t=\overline{R}_t` 和替换 :math:`R_t` 为 :math:`q_*(A_t)`，
     这是允许的，因为 :math:`\mathbb{E}[R_t|A_t] = q_*(A_t)`。
@@ -500,10 +500,10 @@
 
     .. math::
 
-        \begin{align*}
+        \begin{aligned}
         &= \mathbb{E}\left[ (R_t-\overline{R}_t) \pi_t(A_t) (\mathbb{1}_{a=A_t}-\pi_t(a))/\pi_t(A_t) \right] \\
         &= \mathbb{E}\left[ (R_t-\overline{R}_t)(\mathbb{1}_{a=A_t}-\pi_t(a)) \right]
-        \end{align*}
+        \end{aligned}
 
     回想一下，我们的计划是将性能梯度编写为我们可以在每个步骤上采样的预期，就像我们刚刚完成的那样，
     然后更新与样本成比例的每个步骤。将上述期望的样本替换为（2.13）中的性能梯度，得出：
@@ -526,15 +526,15 @@
 
     .. math::
 
-        \begin{align*}
+        \begin{aligned}
         \frac{\partial \pi_t(x)}{\partial H_t(a)} &= \frac{\partial}{\partial H_t(a)}\pi_t(x) \\
         &= \frac{\partial}{\partial H_t(a)}\left[ \frac{e^{H_t(x)}}{\sum_{y=1}^{k}e^{H_t(y)}} \right] \\
         &= \frac{ \frac{\partial e^{H_t(x)}}{\partial H_t(a)} \sum_{y=1}^{k}e^{H_t(y)} - e^{H_t(x)}\frac{\partial \sum_{y=1}^{k}e^{H_t(y)}}{\partial H_t(a)} }{(\sum_{y=1}^{k}e^{H_t(y)})^2} \\
         &= \frac{ \mathbb{1}_{a=x}e_{H_t(x)}\sum_{y=1}^{k}e^{H_t(y)} - e^{H_t(x)}e^{H_t(a)} }{(\sum_{y=1}^{k}e^{H_t(y)})^2} (因为 \frac{\partial e^x}{\partial x}=e^x) \\
         &= \frac{\mathbb{1}_{a=x}e_{H_t(x)}}{\sum_{y=1}^{k}e^{H_t(y)}} - \frac{e^{H_t(x)}e^{H_t(a)}}{(\sum_{y=1}^{k}e^{H_t(y)})^2} \\
         &= \mathbb{1}_{a=x}\pi_t(x) - \pi_t(x)\pi_t(a) \\
         &= \pi_t(x)(\mathbb{1}_{a=x} - \pi_t(a)) &Q.E.D.
-        \end{align*}
+        \end{aligned}
 
     我们刚刚表明，梯度赌博机算法的预期更新等于预期奖励的梯度，因此该算法是随机梯度上升的实例。
     这确保了该算法具有稳健的收敛特性。
 
@@ -277,11 +277,11 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
 .. math::
     :label: 3.9
 
-    \begin{align*}
+    \begin{aligned}
     G_{t} &\doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \gamma^3 R_{t+4} + \dots \\
     &= R_{t+1} + \gamma(R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + \dots) \\
     &= R_{t+1} + \gamma G_{t+1}
-    \end{align*}
+    \end{aligned}
 
 请注意，这适用于所有时间步骤 :math:`t<T`，即使终止发生在 :math:`t+1`，如果我们定义 :math:`G_T=0`，也是适用的。
 这通常可以很容易地计算奖励序列的回报。
@@ -429,12 +429,12 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
 .. math::
     :label: 3.14
 
-    \begin{align*}
+    \begin{aligned}
     v_\pi(s) &\doteq \mathbb{E}_\pi[G_t|S_t=s] \\
     &= \mathbb{E}_\pi[R_{t+1} + \gamma G_{t+1}|S_t=s] (由 (3.9)) \\
     &= \sum_a\pi(a|s) \sum_{s^\prime}\sum_r p(s^\prime,r|s,a) \left[r+\gamma\mathbb{E}_\pi[G_{t+1}|S_{t+1}=s^\prime]\right] \\
     &= \sum_a\pi(a|s) \sum_{s^\prime,r}p(s^\prime,r|s,a)[r+\gamma v_\pi(s^\prime)], 对所有 s\in\mathcal{S}
-    \end{align*}
+    \end{aligned}
 
 其中隐含的动作 :math:`a` 取自集合 :math:`\mathcal{A}(s)`，
 下一个状态 :math:`s^\prime` 取自集合 :math:`\mathcal{S}`
@@ -609,23 +609,23 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
 
 .. math::
 
-    \begin{align*}
+    \begin{aligned}
     v_*(s) &= \max_{a\in\mathcal{A}(s)} q_{\pi_*}(s,a) \\
     &=\max_a \mathbb{E}_{\pi_*}[G_t|S_t=s,A_t=a] \\
     &=\max_a \mathbb{E}_{\pi_*}[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a] &(由(3.9)式) \\
     &=\max_a \mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1})|S_t=s,A_t=a] &(3.18) \\
     &=\max_{a\in \mathcal{A}(s)}\sum_{s^\prime,r} p(s^\prime,r|s,a)[r+\gamma v_*(s^\prime)] &(3.19)
-    \end{align*}
+    \end{aligned}
 
 最后两个方程是 :math:`v_*` 的贝尔曼最优方程的两种形式，:math:`q_*` 的贝尔曼最优方程为
 
 .. math::
     :label: 3.20
 
-    \begin{align*}
+    \begin{aligned}
     q_*(s,a) &= \mathbb{E}\left[R_{t+1}+\gamma\sum_{a^\prime}q_*(S_{t+1,a^\prime})|S_t=s,A_t=a\right] \\
     &=\sum_{s^\prime,r}p(s^\prime,r|s,a)[r+\gamma \max_{a^\prime}q_*(s^\prime,a^\prime)]
-    \end{align*}
+    \end{aligned}
 
 下图中的备份图以图像方式显示了在 :math:`v_*` 和 :math:`q_*` 的贝尔曼最优方程中考虑的未来状态和动作的跨度。
 这些与 :math:`v_\pi` 和 :math:`q_\pi` 的备份图相同，只是在个体选择点添加了弧，以表示选择的最大值，而不是给定一些策略的期望值。
@@ -679,7 +679,7 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
 
 .. math::
 
-    \begin{align*}
+    \begin{aligned}
     v_*(h)&=\max\left\{
         \begin{array}{lr}
             p(h|h,s)[r(h,s,h)+\gamma v_*(h)]+p(l|h,s)[r(h,s,l)+\gamma v_*(l)],\\
@@ -695,18 +695,18 @@ MDP框架是从相互作用的目标导向学习的问题中抽象出来的。
             r_s+\gamma[\alpha v_*(h)+(1-\alpha)v_*(l)],\\
             r_w + \gamma v_*(h)
         \end{array}\right\}
-    \end{align*}
+    \end{aligned}
 
 按照与 :math:`v_*(l)` 相同的方式得到等式
 
 .. math::
 
     v_*(l)=\max\left\{
-        \begin{align*}
+        \begin{aligned}
             &\beta r_s - 3(1-\beta)+\gamma[(1-\beta)v_*(h)+\beta v_*(l)], \\
             &r_w + \gamma v_*(l),\\
             &\gamma v_*(h)
-        \end{align*}
+        \end{aligned}
     \right\}
 
 对于任何 :math:`r_s`，:math:`r_w`，:math:`\alpha`，:math:`\beta` 和 :math:`\gamma` 的选择，
 
@@ -22,20 +22,20 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 .. math::
     :label: 4.1
 
-    \begin{align*}
+    \begin{aligned}
     v_*(s) &= \max_a\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1}) | S_t=s,A_t=a] \\
     &= \max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')]
-    \end{align*}
+    \end{aligned}
 
 或者
 
 .. math::
     :label: 4.2
 
-    \begin{align*}
+    \begin{aligned}
     q_*(s,a)& = \mathbb{E}[R_{t+1}+\gamma \max_{a'} q_*(S_{t+1},a') | S_t=s,A_t=a]\\
     &=\sum_{s',r}p(s',r|s,a)[r+\gamma\max_{a'} q_*(s',a')],
-    \end{align*}
+    \end{aligned}
 
 对于所有的 :math:`s\in\mathcal{S}`，:math:`a\in\mathcal{A}(s)`，
 以及 :math:`s^\prime\in\mathcal{S^+}` 。
@@ -50,12 +50,12 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 
 .. math::
 
-    \begin{align}
+    \begin{aligned}
     v_\pi(s) & \doteq \mathbb{E_\pi}[G_t | S_t=s] \\
     &= \mathbb{E_\pi}[R_{t+1} + \gamma G_{t+1} | S_t=s]  &(从(3.9)) \\
-    &= \mathbb{E_\pi}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s] & \tag{4.3} \\
-    &= \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]，& \tag{4.4}
-    \end{align}
+    &= \mathbb{E_\pi}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s] & (4.3) \\
+    &= \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]，& (4.4)
+    \end{aligned}
 
 在这里 :math:`\pi(a|s)` 是在状态 :math:`s` 时使用策略 :math:`\pi` 采取动作 :math:`a` 的概率，
 期望下标 :math:`\pi` 用来表明是在策略 :math:`\pi` 的条件下。
@@ -73,10 +73,10 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 .. math::
     :label: 4.5
 
-    \begin{align}
+    \begin{aligned}
     v_{k+1}(s)& \overset{\cdot}{=}\mathbb{E}[R_{t+1}+\gamma v_k(S_{t+1}) | S_t=s] \\
     &= \sum_{a}\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma{v_k(s')}],
-    \end{align}
+    \end{aligned}
 
 对于所有的 :math:`s\in\mathcal{S}`。很明显， :math:`v_k=v_\pi` 是这种更新规则下的不动点，
 因为关于 :math:`v_\pi` 贝尔曼方程可以保证等号的成立。实际上，只要在相同的条件下保证 :math:`v_\pi` 的存在，
@@ -175,10 +175,10 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 .. math::
     :label: 4.6
 
-    \begin{align*}
+    \begin{aligned}
     q_\pi(s,a)& \doteq \mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=a] \\
     &= \sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]
-    \end{align*}
+    \end{aligned}
 
 关键的标准是这等式是大于还是小于 :math:`v_{\pi}`。如果是大于——也就是说，
 在状态 :math:`s` 选择执行一次动作 :math:`a` 然后遵从策略 :math:`\pi`
@@ -192,7 +192,6 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
     :label: 4.7
 
     q_\pi(s,\pi'(s)) \geq v_\pi(s)
-    \tag{4.7}
 
 那么策略 :math:`\pi'` 必须与策略 :math:`\pi` 同样好或者比策略 :math:`\pi` 更好。
 也就是说，必须从所有的状态 :math:`s\in\mathcal{S}` 取得更好或者相等的期望回报:
@@ -201,7 +200,6 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
     :label: 4.8
 
     v_\pi'(s) \geq v_\pi(s)
-    \tag{4.8}
 
 另外，如果 :math:`(4.7)` 在任意状态严格不等，那么 :math:`(4.8)` 也应该至少在一个状态严格等。
 这个结果尤其适用于我们在之前考虑的两种策略，一个最初的确定的策略 :math:`\pi` 和一个改变的策略 :math:`\pi'`，
@@ -214,7 +212,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 
 .. math::
 
-   \begin{align}
+   \begin{aligned}
    v_\pi(s)& \leq q_\pi(s,\pi'(s))\\
    &= \mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=\pi'(s)]  & (由(4.6))\\
    &= \mathbb{E}_{\pi'}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s]  \\
@@ -225,7 +223,7 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
    &  \vdots \\
    & \leq \mathbb{E}_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\gamma^3R_{t+4}+\cdots | S_t=s]  \\
    &=v_{\pi'}(s)
-   \end{align}
+   \end{aligned}
 
 目前为止我们看到当给定一个策略和它的价值函数后，我们可以很容易地对在某个状态的动作改变进行评估。
 很自然就会扩展到考虑所有状态和所有可能的动作，根据 :math:`q_\pi(s,a)` 选择在每个状态最好的动作。
@@ -234,11 +232,11 @@ DP和增强学习思想的核心通常说来是用价值函数去组织构建一
 .. math::
     :label: 4.9
 
-    \begin{align*}
+    \begin{aligned}
     \pi'(s)& \doteq \arg\max_a q_\pi(s,a) \\
     & =\arg \max_a\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t=s,A_t=a]\\
     &=\arg\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')],
-    \end{align*}
+    \end{aligned}
 
 其中 :math:`\arg\max_a` 表示随后的表达式最大化（随意打破关系）的 :math:`a` 的值。
 贪婪策略采取短期内看起来最好的动作——向前展望一步——根据 :math:`v_\pi`。