File tree Expand file tree Collapse file tree 1 file changed +2
-4
lines changed
docs/docs/机器学习/Transformer Expand file tree Collapse file tree 1 file changed +2
-4
lines changed Original file line number Diff line number Diff line change @@ -15,7 +15,7 @@ title: 🚧Encoder-Decoder结构
1515
1616分词:首先需要使用某种分词器对输入文本进行分词处理,将其划分为一个个 token。这个过程中英文的单词有时需要下载一个分词表(通常为 tokenizer.json:分词器配置文件,用于文本的分词处理。),单词拆为本身和前缀与后缀,这个词表是人工标注的,这也是为什么英语是大模型首选语言。
1717
18- 构建词表:根据分词结果,统计所有 token 的出现频率,并依据设定的词表大小,选择保留的词汇。通常会保留高频率词汇,同时也会加入一些特殊符号(如垫零符 <PAD >、未知词 <UNK > 等)。通常为 tokenizer_config.json:分词器配置文件,定义了分词器的行为。分好后的词放在 vocab.json:词汇表文件,存储了模型所使用的词汇。
18+ 构建词表:根据分词结果,统计所有 token 的出现频率,并依据设定的词表大小,选择保留的词汇。通常会保留高频率词汇,同时也会加入一些特殊符号(如垫零符 ` <PAD> ` 、未知词 ` <UNK> ` 等)。通常为 tokenizer_config.json:分词器配置文件,定义了分词器的行为。分好后的词放在 vocab.json:词汇表文件,存储了模型所使用的词汇。
1919
2020初始化嵌入矩阵:创建一个二维矩阵,行数等于词表大小,列数等于嵌入维度(即每个词向量的维度)。这个矩阵可以随机初始化,也可以通过预训练模型加载。
2121
@@ -45,9 +45,7 @@ title: 🚧Encoder-Decoder结构
4545- "机器" → [ 0.32, 0.52, 0.75, 0.22]
4646- "学习" → [ 0.45, 0.68, 0.21, 0.37]
4747
48- 这样,原本的文本序列就被转换为向量序列,这个过程人可以通过肉眼直接看到,机器如何完成?你可以使用for循环加判断,但是有更简单的方式。Hot Encoding(独热编码)和Embedding Lookup(嵌入查找)是实现这一过程的两种方法。
49-
50- ## 向量查找实现
48+ 这样,原本的文本序列就被转换为向量序列,这个过程人可以通过肉眼直接看到,机器如何完成?你可以使用for循环加判断,但是有更简单快速的方式。
5149
5250### 独热编码方式
5351
You can’t perform that action at this time.
0 commit comments