数据规模与模型规模 #8

xv44586 · 2022-05-26T08:28:37Z

xv44586
May 26, 2022

用200G 的数据训练10B 的模型，这个规模上是否匹配呢？数据量是不是有点少了呢？

May 26, 2022

您好，
175B的GPT3使用了大概300B Token的数据，目前我们清洗之后的200G数据大约是50B的Token数量，用来训练10B的模型在量级上应该是足够的。
此外200G目前也是初始阶段的数据量，后续有新的数据我们也会不断增加～
感谢您的提问！

View full answer

jayzzhou-thu · 2022-05-26T10:32:09Z

jayzzhou-thu
May 26, 2022
Maintainer

您好，
175B的GPT3使用了大概300B Token的数据，目前我们清洗之后的200G数据大约是50B的Token数量，用来训练10B的模型在量级上应该是足够的。
此外200G目前也是初始阶段的数据量，后续有新的数据我们也会不断增加～
感谢您的提问！

5 replies

xv44586 Jun 22, 2022
Author

参考Training Compute-Optimal Large Language Models 也许需要扩大数据2-3倍，才能让训练更加高效

jayzzhou-thu Jun 22, 2022
Maintainer

是的，根据文章中的估算大概要200B左右数据，不过我们目前的高质量数据还不够，所以暂时采取将50B数据多跑几遍的策略，我们的日常进度也是按照200B的总数据量来算的～
另外，论文中的结论能否迁移到中文模型和不同的模型架构其实也还不一定，所以这也是一个值得探索的过程 🤔

xv44586 Jun 23, 2022
Author

确实，语种，tokenizer，模型架构等等都有可能影响，不过总体来说数据量多些大概率没坏处。
ps：悟道的文本数据你们也用不了吗？那里应该有很多数据

jayzzhou-thu Jun 23, 2022
Maintainer

我们目前没有使用悟道的数据，因为这些数据主要是面向学术研究的

XiaoqingNLP Jun 29, 2022

有一个关于模型训练时间的讨论，在这里讨论会更好。#46 (comment)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

数据规模与模型规模 #8

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 5 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

数据规模与模型规模 #8

Uh oh!

xv44586 May 26, 2022

Replies: 1 comment · 5 replies

Uh oh!

Uh oh!

jayzzhou-thu May 26, 2022 Maintainer

Uh oh!

xv44586 Jun 22, 2022 Author

Uh oh!

Uh oh!

jayzzhou-thu Jun 22, 2022 Maintainer

Uh oh!

xv44586 Jun 23, 2022 Author

Uh oh!

jayzzhou-thu Jun 23, 2022 Maintainer

Uh oh!

XiaoqingNLP Jun 29, 2022

xv44586
May 26, 2022

Replies: 1 comment 5 replies

jayzzhou-thu
May 26, 2022
Maintainer

xv44586 Jun 22, 2022
Author

jayzzhou-thu Jun 22, 2022
Maintainer

xv44586 Jun 23, 2022
Author

jayzzhou-thu Jun 23, 2022
Maintainer