|
151 | 151 | 与控制组进行对照实验是十分有必要的,这可以充分说明之前声音的条件作用阻塞了动物对光照刺激的学习。
|
152 | 152 | 在对照组的实验中,动物没有接受声音的条件作用,对光照条件的学习没有受到阻塞。
|
153 | 153 | Moore和 Schmajuk(2008)对这个实验做出了充分的说明。
|
| 154 | +
|
| 155 | +14.2.2 Rescorla-Wagner模型 |
| 156 | +^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ |
| 157 | + |
| 158 | +Rescorla和Wagner创建这个模型的主要目的是解决阻塞问题。 |
| 159 | +Rescorla-Wagner-模型的核心思想是动物只有在事件违背其预期时才会学习, |
| 160 | +换句话说就是当动物感到惊讶时(尽管不一定意味着任何有 *意识的* 预期与情绪)。 |
| 161 | +我们首先使用 Rescorla和 Wagner自己的术语和符号来描述一下他们的模型,然后再使用我们在讲述TD模型时使用的术语和符号。 |
| 162 | + |
| 163 | +Rescorla和 Wagner是这样描述他们的模型的。 |
| 164 | +该模型会调整复合CS中每个子刺激物的“关联强度”,关联强度是表示相应子刺激物预测一个US出现的强度和准确程度的数值。 |
| 165 | +当使用一个由多种刺激物组成的复合CS进行经典条件反射的实验时,每种子刺激物的关联强度不仅仅取决于自身, |
| 166 | +还在某种程度上取决于整个复合CS的关联强度,即“聚合关联强度”。 |
| 167 | + |
| 168 | +Rescorla和Wagners假设了一个复合CS AX,它由刺激A和X组成,其中动物可能已经经历过刺激A,但是没有经历过刺激X。 |
| 169 | +令 :math:`V_{A}`、:math:`V_{X}` 和 :math:`V_{AX}` 分别表示刺激物A,X以及复合刺激物AX的关联强度。 |
| 170 | +假设在某个实验中,复合CS AX作用于实验对象后,紧接着用US对实验对象进行刺激, |
| 171 | +这里我们将US标注为刺激物Y。则复合刺激CS中每个部分的关联强度变化的公式如下: |
| 172 | + |
| 173 | +.. math:: |
| 174 | +
|
| 175 | + \begin{array}{l}{ |
| 176 | + \Delta V_{A}=\alpha_{A} \beta_{Y}\left(R_{Y}-V_{AX}\right)} \\ |
| 177 | + {\Delta V_{X}=\alpha_{X} \beta_{Y}\left(R_{Y}-V_{AX}\right) |
| 178 | + }\end{array} |
| 179 | +
|
| 180 | +其中,:math:`\alpha_{A} \beta_{Y}` 和 :math:`\alpha_{X} \beta_{Y}` 是步长参数, |
| 181 | +它们取决于US以及CS的各个组成部分,:math:`R_{Y}` 是US Y可以支持的关联强度渐近水平 |
| 182 | +(Rescorla和 Wagner在这里用 :math:`\lambda` 来代替 :math:`R`, |
| 183 | +但是在这里我们依然使用 :math:`R` 以避免混淆,因为我们通常认为 :math:`R` 表示收益信号的大小。 |
| 184 | +但需要说明的是,US在经典条件反射中不一定是收益或者惩罚)。 |
| 185 | +Hescorla-Wagner模型的一个重要假设是认为聚合关联强度 :math:`V_{AX}` 与 :math:`V_{A}+V_{X}` 是相等的。 |
| 186 | +而由这些 :math:`\Delta s` 改变的关联强度则会成为一轮试验时的初始关联强度。 |
| 187 | + |
| 188 | +出于完整性考虑,模型还需要一个反应生成机制这个机制能够将 :math:`V` 的值映射到 CR 中。 |
| 189 | +由于这种映射可能会取决于实验中的各种细节,Rescorla 和 Wagner 并没有详细说明这种映射关系, |
| 190 | +仅仅简单地假定 :math:`V` 的值越大,越有可能产生 CR,若 :math:`V` 的值为负数,则不会产生任何 CR。 |
| 191 | + |
| 192 | +Rescorla-Wagner模型考虑了如何获得CR,这在一定程度上解释了阻塞的产生。 |
| 193 | +只要复合刺激物的聚合关联强度 :math:`V_{AX}` 低于US Y所支持的关联强度渐近水平 :math:`R_{Y}`,则预测误差 :math:`R_{Y}-V_{AX}`为正值。 |
| 194 | +这说明在连续的实验中,复合CS中子刺激物的关联强度 :math:`V_{A}` 和 :math:`V_{X}` 持续增加, |
| 195 | +直到聚合关联强度 :math:`V_{AX}` 与 :math:`R_{Y}` 相等为止,此时,子刺激物的关联水平不再变化(除非US变)。 |
| 196 | +若动物已经对某种复合CS产生条件反射,那么再向这种复合CS中添加新的刺激物形成增强的CS, |
| 197 | +但是由于预测误差的值已经被减小到0或极低的值,因此增强的CS在被进一步的条件作用时,新添加刺激物的关联强度就会增加很少或者完全不增加。 |
| 198 | +因为之前的CS已经可以几乎完美地预测出US的出现,所以新的刺激物出现所引起的误差或意外就变得很小,这就表明之前的知识阻塞了对新刺激物的学习。 |
| 199 | + |
| 200 | +为了从 Rescorla-Wagner 模型过渡到经典条件反射TD模型(我们称之为TD模型),我们首先根据本书中使用的概念来重塑这个模型。 |
| 201 | +具体而言,将用于学习线性函数逼近(9.4节)的符号匹配到这个模型中, |
| 202 | +并且我们认为条件作用的过程是一种在复合CS的基础上对“US的大小”的预测学习实验,US Y的大小就是 Rescorla-Wagner 模型在上面给出的 :math:`R_{Y}`。 |
| 203 | +同时,我们还要引入一些状态。因为 Rescorla-Wagner-模型是一个 *试验层面* 的模型, |
| 204 | +也就是说它通过连续不断地试验来确定关联强度的变化而不考虑两个试验之间发生的任何细节变化。 |
| 205 | +在讲述完整个TD模型之前,无须考虑状态在一次试验中是如何变化的。我们现在只需要把状态看成一种标记方法就可以了,它标记了试验中的复合CS的组成。 |
| 206 | + |
| 207 | +因此,我们假定试验的类型或者状态 :math:`s` 由一个实数特征向量 :math:`\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{d}(s)\right)^{\top}` 描述, |
| 208 | +其中,如果复合CS第 :math:`i` 个组成成分 :math:`CS_i` 在一次试验中存在,则 :math:`x_{i}(s)=1` ,否则为0。 |
| 209 | +设 :math:`d` 维的关联强度向量为 :math:`mathbf{w}`,则状态 :math:`s` 的聚合关联强度为 |
| 210 | + |
| 211 | +.. math:: |
| 212 | +
|
| 213 | + \hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s) |
| 214 | + \tag{14.1} |
| 215 | +
|
| 216 | +这与强化学习中的 *价值估计* 相对应,我们将其视为对 *US的预测*。 |
| 217 | + |
| 218 | +现在,我们暂时让 :math:`t` 表示完整试验的总数,而不是它的通常含义时刻(当我们讲述下面的TD模型时,我们依然使用t的通常含义)。 |
| 219 | +同时,:math:`S+t` 是对应于试验 :math:`t` 的状态。 |
| 220 | +条件作用试验 :math:`t` 按照如下公式将关联强度向量 :math:`\mathbf{w}_{t}` 更新为 :math:`\mathbf{w}_{t+1}` : |
| 221 | + |
| 222 | +.. math:: |
| 223 | +
|
| 224 | + \mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{x}\left(S_{t}\right) |
| 225 | + \tag{14.2} |
| 226 | +
|
| 227 | +其中,:math:`\alpha` 是步长参数,因为我们正在描述 Rescorla-Wagner 模型,所以这里 :math:`\delta_{t}` 指 *预测误差*。 |
| 228 | + |
| 229 | +.. math:: |
| 230 | +
|
| 231 | + \delta_{t}=R_{t}-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right) |
| 232 | + \tag{14.3} |
| 233 | +
|
| 234 | +:math:`R_{t}` 是试验 :math:`t` 的预测目标,即 US 的大小,用 Rescorla 和 Wagner 的话来说就是 US 在试验中可以支持的关联强度。 |
| 235 | +我们可以注意到,由于式(14.2)中存在因子 :math:`\mathbf{x}(S_{t})`,所以在复合CS中,只有在试验中出现的子刺激物的关联强度才会在一次试验后被调整。 |
| 236 | +我们可以将预测误差视为对意外程度的度量,而聚合关联强度可以被视为动物的某种期望值,当它不符合目标 US 强度时就意味着动物的期望被违背了。 |
| 237 | + |
| 238 | +从机器学习的角度来看, Rescorla-Wagner 模型是一个基于误差纠正的监督学习模型。 |
| 239 | +它本质上与最小均方(LMS)或 Widrow-Hoff(Widrow 和 Hoff, 1960)学习规则一样, |
| 240 | +通过调整权重使得误差的均方差尽可能接近于0,在这个模型中,权重就是关联强度。 |
| 241 | +这种“曲线拟合”或者回归算法被广泛地应用于工程和科学应用当中(参见9.4节) [3]_。 |
| 242 | + |
| 243 | +Rescorla-Wagner 模型在动物学习理论的历史上是非常有影响力的,因为它表明,“机械”理论可以解释关于阻塞的主要事实,而不用诉诸于更复杂的认知学理论。 |
| 244 | +例如当动物已经明确感知到另外一种子刺激物出现时,它会根据其之前的短期记忆来评估刺激物与US之间的预测关系。 |
| 245 | +Rescorla-Wagner 模型表明了条件反射的连续性理论(即刺激的时间连续性是学习的充分必要条件)经过简单的调整可以用来解释阻塞现象(Moore and Schmajuk, 2008)。 |
| 246 | + |
| 247 | +Rescorla-Wagner 模型对阻塞现象以及条件反射的其他特征做出了简单的解释,但是这并不是一个针对条件反射最完整或最好的模型。 |
| 248 | +对于目前所观察到的效应也有许多不同的理论给出了解释,并且为了理解经典条件反射的许多微妙之处,相关方面仍在不断发展。 |
| 249 | +我们在下面即将讲解的TD模型,虽然也不是最好或最完整的条件反射模型,但它扩展了 Rescorla-Wagner 模型, |
| 250 | +对试验内和试验间的刺激时序关系对学习效果的影响做出了解释,同时也解释了高级条件反射可能的出现原因。 |
| 251 | + |
| 252 | +.. [3] |
| 253 | +
|
| 254 | + LMS 规则和 Rescorl-Wagner 模型的唯一区别是,对于 LMS,输入向量 :math:`\mathbf{x}_{t}` 可以由任意多的实数组成, |
| 255 | + 并且 :math:`\alpha` 不依赖于输入向量以及刺激物的特性(至少在最简单的 LMS 规则中是这样的)。 |
0 commit comments