Skip to content

Commit 72baafc

Browse files
committed
docs: 14.2.3 TD模型
1 parent 4214c25 commit 72baafc

File tree

1 file changed

+57
-2
lines changed

1 file changed

+57
-2
lines changed

source/partIII/chapter14/psychology.rst

Lines changed: 57 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -224,7 +224,7 @@ Rescorla-Wagner模型考虑了如何获得CR,这在一定程度上解释了阻
224224
\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{x}\left(S_{t}\right)
225225
\tag{14.2}
226226
227-
其中,:math:`\alpha` 是步长参数,因为我们正在描述 RescorlaWagner 模型,所以这里 :math:`\delta_{t}` 指 *预测误差*。
227+
其中,:math:`\alpha` 是步长参数,因为我们正在描述 Rescorla-Wagner 模型,所以这里 :math:`\delta_{t}` 指 *预测误差*。
228228

229229
.. math::
230230
@@ -251,5 +251,60 @@ Rescorla-Wagner 模型对阻塞现象以及条件反射的其他特征做出了
251251

252252
.. [3]
253253
254-
LMS 规则和 RescorlWagner 模型的唯一区别是,对于 LMS,输入向量 :math:`\mathbf{x}_{t}` 可以由任意多的实数组成,
254+
LMS 规则和 Rescorl-Wagner 模型的唯一区别是,对于 LMS,输入向量 :math:`\mathbf{x}_{t}` 可以由任意多的实数组成,
255255
并且 :math:`\alpha` 不依赖于输入向量以及刺激物的特性(至少在最简单的 LMS 规则中是这样的)。
256+
257+
14.2.3 TD模型
258+
^^^^^^^^^^^^^^^^^^^^
259+
260+
与 Rescorla-Wagner 相反,TD模型不是一个试验层面的模型,而是一个 *实时* 模型。
261+
在 Rescorla-Wagner 模型中,:math:`t` 每增加1则表示经过了一个完整的条件反射试验,因此该模型不适合对试验进程中发生的细节进行描述。
262+
在每次试验中,动物可能会经历各种在特定时刻产生并持续特定时长的刺激,这些时间关系会对动物的学习效果产生显著的影响。
263+
同时, Rescorla-Wagner 模型也没有考虑高级条件反射的机制,但是对于TD模型来说,高级条件反射是TD模型的核心思想——自举思想的自然结果。
264+
265+
我们从 Rescorla-Wagner 模型的结构开始讲述TD模型,但是从现在开始 :math:`t` 表示试验中或两次试验之间的时刻,而不是一次完成的试验。
266+
我们将 :math:`t` 和 :math:`t+1` 之间的时间视为一个很小的时间间隔,例如 0.01 秒,将一次试验视为一个状态序列,每个状态对应于一个时刻。
267+
因此,每个 :math:`t` 对应的状态表示了在 :math:`t` 这个时刻的刺激物的各种细节,而不仅仅是在一次试验中CS各种组成部分出现的标记。
268+
实际上,我们可以完全抛弃以一次试验为单位的想法。从动物的视角来看,动物与其所处环境之间的交互是连续的,一次试验仅仅是这种连续体验的一个片段。
269+
按照我们对智能体与其所处环境交互的观点,假设动物正在经历一系列无限的状态 :math:`s`,每个状态由一个特征向量 :math:`mathbf{x}(s)` 表示。
270+
这也就是说,我们可以将多次试验视为一个大的试验中的若干时间片段,刺激模式不断在这些时间片段中重复,这样做往往十分方便。
271+
272+
状态特征不仅可以描述动物所经历的外部刺激,还可以描述外部刺激在动物大脑中产生的神经活动模式,
273+
而这些模式是历史相关的,这意味着可以通过一系列外部刺激来形成持久的神经活动模式。
274+
当然,我们并不知道这些模式的具体内容是什么,但是诸如TD模型这样的实时模型可以让我们探究各种关于外部刺激的内部表征的学习假说所呈现的结果。
275+
综上所述,TD模型并不会确定任何一种特定的状态刺激表示。此外,由于TD模型包含了跨越不同刺激时间间隔的折扣和资格迹,
276+
因此,该模型还可以让我们探究折扣和资格迹是如何与刺激物的表示进行交互的,这些交互可以用于预测经典条件反射试验的结果。
277+
278+
下面我们来描述一些与TD模型一起使用的状态表示及其含义,但是我们暂且还不知道状态表示的具体内容,
279+
因此我们假设每个状态 :math:`s` 都是由一个特征向量 :math:`\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{n}(s)\right)^{\top}` 来表示的。
280+
那么与状态 :math:`s` 对应的聚合关联强度和 Rescorla Wagner 相同,都由式(14.1)给出。
281+
但是TD模型对于关联强度向量 :math:`\mathbf{w}` 的更新方式是不同的。由于参数 :math:`t` 目前表示的是一个时刻而不是一次完整的试验,因此TD模型根据如下公式进行更新
282+
283+
.. math::
284+
285+
\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{z}_{t}
286+
\tag{14.4}
287+
288+
上式将 Rescorla-Wagner 模型更新公式(14.2)中的 :math:`\mathbf{x}_t(S_t)` 替换为 :math:`\mathbf{z}_t`,:math:`\mathbf{z}_t` 是一个资格迹向量。
289+
同时,这里的 :math:`\delta_{t}` 与式(14.3)中的不同,其代表TD误差。
290+
291+
.. math::
292+
293+
\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)
294+
\tag{14.5}
295+
296+
其中, :math:`\gamma` 是折扣系数(介于0和1之间),:math:`R_t` 是在 :math:`t` 时刻的预测目标,
297+
:math:`\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)` 和 :math:`\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)` 是在 :math:`t+1` 时刻与 :math:`t` 时刻对应的聚合关联强度,如式(14.1)中所定义的。
298+
299+
资格迹向量 :math:`\mathbf{z}_t` 的每个分量 :math:`i` 根据特征向量 :math:`x_i(S_t)` 分量 :math:`\mathbf{x}(S_t)` 进行增加或减少,其余的资格迹向量根据系数 :math:`\gamma\lambda` 进行衰减
300+
301+
.. math::
302+
\mathbf{z}_{t+1}=\gamma \lambda \mathbf{z}_{t}+\mathbf{x}\left(S_{t}\right)
303+
\tag{14.6}
304+
305+
这里的 :math:`\lambda` 是资格迹的衰减系数。
306+
307+
这里注意,如果 :math:`\gamma=0`,那么TD模型就会退化为 Rescorla-Wagner 模型,
308+
但是不同之处在于 :math:`t` 的含义(在 Rescorla-Wagner 模型中表示一次试验,在TD模型中表示某个时刻)。
309+
同时,在TD模型中,预测目标 :math:`R` 要多出一步TD模型相当于线性函数逼近(第12章)中半梯度 :math:`TD(\lambda)` 算法的后向视图,
310+
但区别在于当使用TD算法学习价值函数来进行策略改进时,:math:`R_t` 不必是收益信号。

0 commit comments

Comments
 (0)