推荐试试我的一些 transformer 技巧,提升收敛速度和最终性能 #43
BlinkDL
started this conversation in
Open Chats 开放交流
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
很高兴看到有新的中文开源生成模型。我是 https://github.com/BlinkDL/RWKV-LM 和 https://github.com/BlinkDL/AI-Writer 的作者。
我有一些特殊的 transformer 技巧(大部分适用于任何 GPT-like 模型),最终可以让无 attention 的 RNN 达到 transformer 的语言建模能力(已经在 the Pile 训练了 430M 参数模型验证,现在正在训练 1.5B 参数的模型,用的是 EleutherAI 赞助的 8xA100),详情见 Github 页面。
欢迎大家交流合作。我也在训练 400M 参数的中文小说模型,效果挺好。
Beta Was this translation helpful? Give feedback.
All reactions