File tree Expand file tree Collapse file tree 2 files changed +2
-3
lines changed Expand file tree Collapse file tree 2 files changed +2
-3
lines changed Original file line number Diff line number Diff line change 18
18
19
19
## ** 数据准备**
20
20
### 建议的预训练数据
21
- 论文中提到预训练需要两部分数据:Book Corpus数据 和 Wikipedia Corpus数据,均为英文文本,utf-8编码。但是当前BookCorpus数据已不再开源,可以使用其它数据替代,只要是纯英文文本数据,utf-8编码即可。
22
- 例如[ Gutenberg Dataset] ( https://web.eecs.umich.edu/~lahiri/gutenberg_dataset.html )
21
+ 论文中提到预训练需要两部分数据:Book Corpus数据 和 Wikipedia Corpus数据,均为英文文本,utf-8编码。但是当前BookCorpus数据已不再开源,可以使用其它数据替代,只要是纯英文文本数据,utf-8编码即可(例如 Gutenberg Dataset)。
23
22
。另外,Wikipedia Corpus数据建议从[ 官方获取] ( https://www.english-corpora.org/wiki/ ) ,下面例子假设这些数据都已获取并都放在./BookCorpus/train.data 文件中,每行一句英文文本
24
23
25
24
### 自定义预训练数据
Original file line number Diff line number Diff line change 2
2
3
3
## 模型简介
4
4
本项目是 [ LayoutLM: Pre-training of Text and Layout for Document Image Understanding] ( https://arxiv.org/pdf/1912.13318v5.pdf ) 在 Paddle 2.2上的开源实现,
5
- 包含了在 [ FUNSD数据集] ( https://github.com/doc-analysis/ FUNSD ) 上的微调代码。
5
+ 包含了在 [ FUNSD数据集] ( https://guillaumejaume. github.io/ FUNSD/ ) 上的微调代码。
6
6
7
7
## 快速开始
8
8
### 配置环境
You can’t perform that action at this time.
0 commit comments