|
| 1 | +## 0. 引言 |
| 2 | + |
| 3 | +> 您是否厌倦了人类之间使用离散语言的低效交流?您是否希望学习更加抽象且高效的表达方式,或者渴望与计算机建立更加连续的沟通?本门课程将从自然语言中单词的最基本表示——词向量开始讲起,详细讲解当前 $ NLP$ ( $Natural Language Processing$, 自然语言处理) 的主流模型 $Transformer$,并教授如何使用目前最热门的 $NLP$ 模型托管平台 $Hugging Face$ 🤗。 |
| 4 | +
|
| 5 | +>如果您觉得自己的语言表达过于离散,希望学习具有连续性的表达方式;或者认为自己的表达过于直白,缺乏高层次的抽象;或者希望在本地部署类 $ChatGPT$ 语言模型,那么请将本课程压入您的运行栈。本课程虽无益于提升您作为人的表达能力,即教会您个人使用词向量表达并对高层次抽象语义特征进行提取,但可以使您的模型具有更加完备的自然语言理解与自然语言生成能力,从而在语言类任务中实现对您的代替。 在本课程中,您(或者您的模型,如果比您更智能的话)可以: 学习变形金刚的基本原理、结构,亲手组装并运行您的第一个变形金刚(模块无需自备)。了解大规模预训练语言模型的预训练、微调方法。 熟练掌握抱抱脸的使用场景与技巧。 对预训练语言模型进行微调,完成简单的文本任务。在学习完计算机视觉课程后,尝试使用多模态模型完成文本 & 图像任务。 |
| 6 | + |
| 7 | +## 1. 如何表示一个词的含义? |
| 8 | + |
| 9 | +- 用一个 $id$ 表示一个词? |
| 10 | + |
| 11 | +<img src="../static/ai-ml/nlp/1-id.png" style="display: block; margin: 0 auto; width: 50%;"> |
| 12 | + |
| 13 | + |
| 14 | + |
| 15 | +- 离散的 $id$ 型词语如何输入到神经网络之中? |
| 16 | +- 神经网络的输入对象通常是 $feature$ -> 我们需要得到词的 $feature$xw |
| 17 | +xw |
| 18 | +### 🤗Word Embedding 词嵌入 |
| 19 | + |
| 20 | +- 将一个词映射为一个 $𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 \; dim$ 维的向量 |
| 21 | +- 每一维具有一定的含义(具体含义可能很抽象) |
| 22 | + |
| 23 | + |
| 24 | +<img src="../static/ai-ml/nlp/2-embedding.png" style="display: block; margin: 0 auto; width: 90%;"> |
| 25 | + |
| 26 | +### 🤗如何获取 Word Embedding ? |
| 27 | + |
| 28 | +- 手工构造? |
| 29 | + |
| 30 | + • “北京在北纬 $40$ 度,所以必须有一维向量的值是 $40$ ”? |
| 31 | + |
| 32 | +- 通过在任务中拟合数据获得 |
| 33 | + |
| 34 | + • 例如对于 $Next\;token\;prediction$ (根据前缀预测下个词)的任务: |
| 35 | + |
| 36 | + 1. 随机初始化所有词 $v$ 的 $Word\; Embedding$ $E_v$ |
| 37 | + 2. 将前缀的 $Embedding$ 求和取平均 $E_{\text{predict}} = \frac{1}{k} \sum_{j=0}^{k-1} E_{v_j}$ |
| 38 | + 3. 下⼀个词是 $Embedding$ 与 $E_{predict}$ 最接近的词 $v_{\text{predict}} = \max_{v_i} \cos \left( E_{\text{predict}}, E_{v_i} \right)$ |
| 39 | + 4. 计算 $loss$,反向传播 |
| 40 | + |
| 41 | +## 2. 如何获取词在句子中的向量表示? |
| 42 | + |
| 43 | +>An Apple a Day Keeps the Doctor Away |
| 44 | +
|
| 45 | +>一天一部 Iphone 让我与博士学位失之交臂? |
| 46 | +
|
| 47 | + |
| 48 | +一个简单的想法:将句中所有词的向量加权求和,表示词在句中的含义。 |
| 49 | + |
| 50 | +### 🤗Skip-Gram & CBOW |
| 51 | + |
| 52 | +一个词的意思取决于相邻词 |
| 53 | + |
| 54 | +<img src="../static/ai-ml/nlp/3-cbow.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 55 | + |
| 56 | +### 🤗TextCNN |
| 57 | + |
| 58 | +使用卷积来聚合特征 |
| 59 | + |
| 60 | +<img src="../static/ai-ml/nlp/4-cnn.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 61 | + |
| 62 | +### 🤗RNN |
| 63 | + |
| 64 | +预测下一个词 |
| 65 | + |
| 66 | +<img src="../static/ai-ml/nlp/5-rnn.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 67 | + |
| 68 | +### 🤗长距离依赖? |
| 69 | + |
| 70 | +<img src="../static/ai-ml/nlp/6-distance.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 71 | + |
| 72 | +### 🤗Attention is all you need! |
| 73 | + |
| 74 | +<img src="../static/ai-ml/nlp/7-probs.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 75 | + |
| 76 | +### 🤗Attention Probs |
| 77 | + |
| 78 | +- 如何获取 $𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛\;𝑝𝑟𝑜𝑏𝑠$?两个词越相关越大? |
| 79 | + |
| 80 | +- 以两个词 $𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔$ 的余弦夹角表示相似度: |
| 81 | + |
| 82 | +$$\text{attention scores}(v_i, v_j) = \cos \left( E_{v_i}, E_{v_j} \right)$$ |
| 83 | + |
| 84 | +- 使用 $𝑆𝑜𝑓𝑡𝑚𝑎𝑥$ 归一化: |
| 85 | + |
| 86 | +$$\text{attention probs}(v_i, v_j) = \frac{e^{\text{attention scores}(v_i, v_j)}}{\sum_{k=0}^{\text{sequence length}} e^{\text{attention scores}(v_i, v_k)}}$$ |
| 87 | + |
| 88 | +$$ E_{v_iin\;sentence}= \sum_{j=0}^{\text{seq\;len}} \text{attention probs}(v_i, v_j) E_j$$ |
| 89 | + |
| 90 | + |
| 91 | +### 🤗如何科学获取Attention Score? |
| 92 | + |
| 93 | +- $𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔$ 的余弦夹角:与 $𝑣_{i}$ 相似的特征真的是 $𝑣_{i}$ 需要的吗?🤔 |
| 94 | + |
| 95 | + • 假如句子为:🍎🍎🍎🍎🍎🍎🍎🍎🍎🍎🍎are good. |
| 96 | + |
| 97 | + •与 $𝐸_{🍎}$ 最接近的总是 $𝐸_{🍎}$,$𝐸_{🍎in\;sentence}$= $𝐸_{🍎}$ |
| 98 | + |
| 99 | + |
| 100 | + |
| 101 | +- $𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 → (𝑄𝑢𝑒𝑟𝑦,𝐾𝑒𝑦)$ 🤗🤗🤗 |
| 102 | + |
| 103 | +- $𝑄𝑢𝑒𝑟𝑦$:想查询的特征 |
| 104 | + |
| 105 | +- $𝐾𝑒𝑦$:想被查询的特征 |
| 106 | + |
| 107 | +$$ |
| 108 | +\text{attention scores}(v_i, v_j) = \cos \left( E_{v_i}, E_{v_j} \right) |
| 109 | +$$ |
| 110 | + |
| 111 | +### 🤔 Attention |
| 112 | + |
| 113 | +$$ |
| 114 | +\text{Embedding}\xrightarrow{\text{Linear}} (\text{Query, Key, Value}) |
| 115 | +$$ |
| 116 | + |
| 117 | +$$ |
| 118 | +\text{attention scores}(v_i, v_j) = \cos \left( E_{v_i}, E_{v_j} \right) |
| 119 | +$$ |
| 120 | + |
| 121 | +$$ \text{attention probs}(v_i, v_j) = \frac{e^{\text{attention scores}(v_i, v_j)}}{\sum_{k=0}^{\text{sequence length}} e^{\text{attention scores}(v_i, v_k)}} $$ |
| 122 | + |
| 123 | +$$ V_{v_iin sentence} = \sum_{j=0}^{\text{seq len}} \text{attention probs}(v_i, v_j) V_j$$ |
| 124 | + |
| 125 | +$$E_{v_iin sentence} \xleftarrow{\text{Linear}} V_{v_iin sentence} $$ |
| 126 | + |
| 127 | +### 🤗 Attention |
| 128 | + |
| 129 | +- $Query$: 我想找到他的名字… |
| 130 | + |
| 131 | +- $Key$: |
| 132 | + |
| 133 | + • 小明 * 他的名字 = 0.8 |
| 134 | + |
| 135 | + • 他 * 他的名字 = 0.1 |
| 136 | + |
| 137 | + • 小博物学家 * 他的名字 = 0.05 |
| 138 | + |
| 139 | + • … |
| 140 | + |
| 141 | +- $Result$ = 0.8 * $V_{小明}$ + 0.1 * $V_{他}$ + 0.05 * $V_{小博物学家}$ + … |
| 142 | + |
| 143 | +### 🤗 Attention |
| 144 | + |
| 145 | +- $\text{Input: } \text{Embeddings}_{\quad \text{shape} = (\text{seq len}, \text{embedding dim})}$ |
| 146 | +- $Q = Q_{\text{proj}}(\text{Embeddings})_{\quad \text{shape} = (\text{seq len}, \text{query dim})}$ |
| 147 | + |
| 148 | +- $K = K_{\text{proj}}(\text{Embeddings}) _{\quad \text{shape} = (\text{seq len}, \text{key dim}), \; \text{key dim} = \text{query dim}}$ |
| 149 | + |
| 150 | +- $V = V_{\text{proj}}(\text{Embeddings}) _{\quad \text{shape} = (\text{seq len}, \text{value dim}) }$ |
| 151 | + |
| 152 | +- $\text{Attention Probs}(Q, K) = \text{softmax}\left(\frac{QK^T}{\sqrt{\text{d}}}\right) _{\quad \text{shape} = (\text{seq len}, \text{seq len})}$ |
| 153 | + |
| 154 | +- $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{\text{d}}}\right) V _{\quad \text{shape} = (\text{seq len}, \text{value dim}) }\\$ |
| 155 | + |
| 156 | +- $\text{Output} = O_{\text{proj}}(\text{Attention}(Q, K, V)) _{\quad \text{shape} = (\text{seq len}, \text{embedding dim})}$ |
| 157 | + |
| 158 | + |
| 159 | +<img src="../static/ai-ml/nlp/8-dotproduct.png" style="display: block; margin: 0 auto; width: 30%;"> |
| 160 | + |
| 161 | + |
| 162 | + |
| 163 | +### 🤗如何加入位置信息🧭? |
| 164 | + |
| 165 | +- $Attention$ 机制中,并没有考虑向量在 $sequence$ 中的位置。 |
| 166 | + |
| 167 | +- $𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔$:为每一个位置预设一个向量 $𝑃𝐸_{pos}$ |
| 168 | + |
| 169 | + $$E_{v_iinput} = E_{v_i} + PE_{pos}$$ |
| 170 | + |
| 171 | +## 3. 如何在模型中存储知识? |
| 172 | + |
| 173 | +### 🤗模型中知识存在何处? |
| 174 | + |
| 175 | +- 知识:$Key-Value Pair: (K, V)$ |
| 176 | + |
| 177 | +- $Neural Memory$,使用 $x$ 查询 $k_i$: |
| 178 | + |
| 179 | +$$p(k_i|x) \propto e^{k_i x}$$ |
| 180 | + |
| 181 | +$$MN(x) = \sum_{i=1}^{\text{dim}} p(k_i|x) \cdot v_i$$ |
| 182 | + |
| 183 | +$$K = [k_i], V = [v_i]$$ |
| 184 | + |
| 185 | +$$MN(x) = \text{softmax}(xK^T)V$$ |
| 186 | + |
| 187 | +- 用两个线性层实现前馈神经网络: |
| 188 | + |
| 189 | + $$FFN(x) = f(xK^T)V$$ |
| 190 | + |
| 191 | +### 🤗 Feedforward Neural Network |
| 192 | + |
| 193 | +$$FFN(x) = f(xK^T)V$$ |
| 194 | + |
| 195 | +- $𝑓$ 一般使用 $𝑟𝑒𝑙𝑢$ 或其变种 |
| 196 | +- 一般 $inner\;ℎ𝑖𝑑𝑑𝑒𝑛 \;dim$ = $4\;𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔\;dim$ |
| 197 | +- 参数量:$8×𝑒𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠\;dim^2$ |
| 198 | + |
| 199 | +### 🤗 Transformer |
| 200 | + |
| 201 | +- 从 $Input$ 序列到 $Output$ 序列——$Seq2Seq$ |
| 202 | + |
| 203 | +## 4. 如何基于以上原理构建语言模型? |
| 204 | + |
| 205 | +- 语言模型:$P_\theta (\text{w|context})$ |
| 206 | + |
| 207 | +- $𝑐𝑜𝑛𝑡𝑒𝑥𝑡$:上下文 |
| 208 | + |
| 209 | +- $w$:某个位置上的某个词的概率 |
| 210 | + |
| 211 | +- 自编码语言模型(如 $BERT$): |
| 212 | + |
| 213 | + • “北京在北纬$[MASK]$度”,求$[MASK]$填词的概率分布:𝑃(•|北京在北纬$[MASK]$度) |
| 214 | + |
| 215 | +- 自编码语言模型(如 $GPT$): |
| 216 | + |
| 217 | + • “北京在北”,求下一个字的概率分布:𝑃(•|北京在北) |
| 218 | + |
| 219 | +### 🤗 Encoder Only |
| 220 | + |
| 221 | +- 从 $Input$ 序列到分类输出—— $Classification$ |
| 222 | +- 典型模型:$BERT$ |
| 223 | + |
| 224 | +<img src="../static/ai-ml/nlp/10-bert.png" style="display: block; margin: 0 auto; width: 50%;"> |
| 225 | + |
| 226 | +### 🤗 Decoder Only |
| 227 | + |
| 228 | +- 从输入序列到输入序列的延长—— $Generation $ |
| 229 | +- 典型模型:$GPT$ |
| 230 | + |
| 231 | +<img src="../static/ai-ml/nlp/11-gpt.png" style="display: block; margin: 0 auto; width: 50%;"> |
| 232 | + |
| 233 | +### 🤗 Attention Types |
| 234 | + |
| 235 | +- $Self Attention$: $QKV$ 来自同一序列 |
| 236 | + |
| 237 | +<img src="../static/ai-ml/nlp/12-self.png" style="display: block; margin: 0 auto; width: 90%;"> |
| 238 | + |
| 239 | +- $Cross Attention$: $QKV$ 来自不同序列 |
| 240 | +<img src="../static/ai-ml/nlp/13-cross.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 241 | + |
| 242 | +- 一种特殊的 $Self Attention$ |
| 243 | + |
| 244 | +<img src="../static/ai-ml/nlp/14-special.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 245 | + |
| 246 | +### 🤗 Multi Head Attention 🙂🙂🙂 |
| 247 | + |
| 248 | +- $\ (Q_0, Q_1, Q_2, Q_3) = Q = Q_{\text{proj}}(\text{Embeddings}) \quad Q_i.\ \text{shape} = (\text{seq len}, \frac{\text{embeddings dim}}{\text{num head}}) \\$ |
| 249 | +- $\ (K_0, K_1, K_2, K_3) = K = K_{\text{proj}}(\text{Embeddings}) \quad K_i.\ \text{shape} = (\text{seq len}, \frac{\text{embeddings dim}}{\text{num head}}) $ |
| 250 | +- $\ (V_0, V_1, V_2, V_3) = V = V_{\text{proj}}(\text{Embeddings}) \quad V_i.\ \text{shape} = (\text{seq len}, \frac{\text{embeddings dim}}{\text{num head}})$ |
| 251 | + |
| 252 | + |
| 253 | + |
| 254 | +- $\text{Output} = O_{\text{proj}}(\text{Concat}(\text{Attention}(Q_i, K_i, V_i)))$ |
| 255 | + |
| 256 | + |
| 257 | + |
| 258 | +- 参数量:$\ 4 \times \text{embeddings dim}^2$ |
| 259 | +- 不同 $Head$ 关注不同的语义关系 |
| 260 | + |
| 261 | + |
| 262 | + |
| 263 | + |
| 264 | + |
| 265 | +<img src="../static/ai-ml/nlp/15-multihead.png" style="display: block; margin: 0 auto; width: 40%;"> |
| 266 | + |
| 267 | +### 🤗 Group Query Attention |
| 268 | + |
| 269 | +<img src="../static/ai-ml/nlp/16-groupquery.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 270 | + |
| 271 | +### 🤗 Transformer |
| 272 | + |
| 273 | +- $LM Head$:一个线性层,输入维度为 $embedding dim$;输出维度为词表大小 $vocab\;size$。 |
| 274 | +- 输出每个位置上各词未归一化的对数概率 logits: |
| 275 | +$$ |
| 276 | +P_\theta (\cdot \mid \text{context}) = \text{softmax}(\text{logits}) |
| 277 | +$$ |
| 278 | +- 左侧为 $Encoder$ |
| 279 | +- 右侧为 $Decoder$ |
| 280 | + |
| 281 | + |
| 282 | +<img src="../static/ai-ml/nlp/9-transformer.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 283 | + |
| 284 | + |
| 285 | +### 🤗 Encoder |
| 286 | + |
| 287 | +- $BERT$ |
| 288 | +- 一次前向传播即可计算出所有$[MASK]$的概率分布 |
| 289 | +- 文本理解任务 |
| 290 | + |
| 291 | +<img src="../static/ai-ml/nlp/17-encoder.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 292 | + |
| 293 | +### 🤗 Decoder |
| 294 | + |
| 295 | +- $GPT$ |
| 296 | +- 自回归生成:每次生成下一个词 |
| 297 | +- $Masked Attention$:每个词做$Attention$时只能加权到之前的词 |
| 298 | +- 文本生成任务 |
| 299 | + |
| 300 | +<img src="../static/ai-ml/nlp/18-decoder.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 301 | + |
| 302 | +### 🤗如何训练语言模型? |
| 303 | + |
| 304 | +- 随机初始化权重𝜃 |
| 305 | + |
| 306 | +- 反复随机初始化权重𝜃,直到权重能较好地完成任务❌ |
| 307 | + |
| 308 | +- 使用大量人工标注文本对模型进行训练😧😧😧 |
| 309 | + |
| 310 | +- 使用大量无标注文本对模型进行训练🧐😉🤗 |
| 311 | + |
| 312 | +### 🤗预训练 |
| 313 | + |
| 314 | +- $Mask filling or Next token prediction?$ |
| 315 | + |
| 316 | +- $Mask filling$: |
| 317 | + |
| 318 | + • 我是$[MASK]$,$[MASK]$考试没有一次$[MASK]$。 |
| 319 | + |
| 320 | +$$\max_\theta \left( P_\theta (\text{大学生|context}) \cdot P_\theta (\text{幼儿园|context} \cdot P_\theta (\text{参加|context}) \right)$$ |
| 321 | + |
| 322 | +- $Next token prediction$: |
| 323 | + |
| 324 | + • 我是大学生, |
| 325 | + |
| 326 | +$$\max_\theta \left( \prod P_\theta (\text{next token} \mid \text{prefix}) \right) |
| 327 | + = \max_\theta \left( P_\theta (\text{大学生|我是}) \cdot P_\theta (\text{, |我是大学生}) \right) |
| 328 | +$$ |
| 329 | + |
| 330 | +### 🤗如何使用语言模型完成具体下游任务? |
| 331 | + |
| 332 | +- 反复随机初始化权重𝜃,直到权重𝜃能较好地完成任务❌ |
| 333 | +- 在预训练模型的基础上继续使用大量无标注文本训练😟 |
| 334 | +- 使用少量标注数据 $(𝑥,𝑦)$ 模型进行训练🤗🤗🤗 |
| 335 | + |
| 336 | +#### 例:分类任务 |
| 337 | + |
| 338 | +- 替换预训练模型中的 $LM Head$ 为 $Classification Head $ |
| 339 | + |
| 340 | +- $Classification Head$ 输入维度为 $embedding\,dim$ |
| 341 | + |
| 342 | +- 输出维度为类别数目 $num\,labels$ |
| 343 | + |
| 344 | +- ~~然后直接拿去部署~~ |
| 345 | + |
| 346 | + |
| 347 | + |
| 348 | +- 使用标注的数据 $(𝑥,𝑦)$ 进行训练 |
| 349 | + |
| 350 | + • $x$:文本;$y$:类别 |
| 351 | + |
| 352 | +### 🤗如何使用有限的硬件资源进行微调? |
| 353 | + |
| 354 | +- $LoRA: Low-Rank Adaptation$ |
| 355 | + |
| 356 | +<img src="../static/ai-ml/nlp/19-lora.png" style="display: block; margin: 0 auto; width: 100%;"> |
| 357 | + |
| 358 | +### 🤗如何让语言模型更好的理解人类意图? |
| 359 | + |
| 360 | +- 指令微调 |
| 361 | +- 使用人工标注的 ($prompt, response$) 对模型进行微调 |
| 362 | +- 强化学习 |
| 363 | + |
| 364 | +<img src="../static/ai-ml/nlp/20-finetune.png" style="display: block; margin: 0 auto; width: 100%;"> |
0 commit comments