Skip to content

Commit 0a8c26d

Browse files
📝 更新Transformer文档,优化词表构建部分的描述
- 修改了词表构建的说明,增加了对特殊符号的强调,确保文档内容更清晰易懂。 - 删除了向量查找实现的标题,简化了文档结构,提升可读性。
1 parent 22b4ab5 commit 0a8c26d

File tree

1 file changed

+2
-4
lines changed

1 file changed

+2
-4
lines changed

docs/docs/机器学习/Transformer/Encoder-Decoder结构.md

Lines changed: 2 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -15,7 +15,7 @@ title: 🚧Encoder-Decoder结构
1515

1616
分词:首先需要使用某种分词器对输入文本进行分词处理,将其划分为一个个 token。这个过程中英文的单词有时需要下载一个分词表(通常为 tokenizer.json:分词器配置文件,用于文本的分词处理。),单词拆为本身和前缀与后缀,这个词表是人工标注的,这也是为什么英语是大模型首选语言。
1717

18-
构建词表:根据分词结果,统计所有 token 的出现频率,并依据设定的词表大小,选择保留的词汇。通常会保留高频率词汇,同时也会加入一些特殊符号(如垫零符 <PAD>、未知词 <UNK> 等)。通常为 tokenizer_config.json:分词器配置文件,定义了分词器的行为。分好后的词放在 vocab.json:词汇表文件,存储了模型所使用的词汇。
18+
构建词表:根据分词结果,统计所有 token 的出现频率,并依据设定的词表大小,选择保留的词汇。通常会保留高频率词汇,同时也会加入一些特殊符号(如垫零符 `<PAD>`、未知词 `<UNK>` 等)。通常为 tokenizer_config.json:分词器配置文件,定义了分词器的行为。分好后的词放在 vocab.json:词汇表文件,存储了模型所使用的词汇。
1919

2020
初始化嵌入矩阵:创建一个二维矩阵,行数等于词表大小,列数等于嵌入维度(即每个词向量的维度)。这个矩阵可以随机初始化,也可以通过预训练模型加载。
2121

@@ -45,9 +45,7 @@ title: 🚧Encoder-Decoder结构
4545
- "机器" → [0.32, 0.52, 0.75, 0.22]
4646
- "学习" → [0.45, 0.68, 0.21, 0.37]
4747

48-
这样,原本的文本序列就被转换为向量序列,这个过程人可以通过肉眼直接看到,机器如何完成?你可以使用for循环加判断,但是有更简单的方式。Hot Encoding(独热编码)和Embedding Lookup(嵌入查找)是实现这一过程的两种方法。
49-
50-
## 向量查找实现
48+
这样,原本的文本序列就被转换为向量序列,这个过程人可以通过肉眼直接看到,机器如何完成?你可以使用for循环加判断,但是有更简单快速的方式。
5149

5250
### 独热编码方式
5351

0 commit comments

Comments
 (0)