本项目围绕 DeepLearning.AI 出品的 Post-Training for LLMs 系列课程打造中文翻译与知识整理教程。我们提供课程内容翻译、知识点梳理和示例代码,旨在降低语言门槛,帮助学生、研究人员和开发者系统掌握大语言模型(LLM)后训练阶段的核心技术与实践方法。
在线视频课程地址: DeepLearning.AI - Post-training of LLMs
本项目的主要内容包括:1. 监督微调(SFT)的基础理论与实践应用,帮助学习者掌握如何通过有监督的方式对预训练模型进行精细化调整;2. 直接偏好优化(DPO)技术的深入解析,包括理论基础和实际操作指导;3. 在线强化学习(Online RL)在大模型后训练中的应用,涵盖从基础概念到高级实践的全流程内容;4. 完整的代码示例和实践项目,确保学习者能够将理论知识转化为实际应用能力。
项目的主要目标是让更多的学生、研究者和开发者能够系统性地学习和掌握大语言模型后训练的核心技术!任何人都可以提出 issue 或是提交 PR,共同构建维护这个项目。
想要深度参与的同学可以联系我们,我们会将你加入到项目的维护者中。
学习建议:本项目的学习建议是,先学习监督微调(SFT)的基础理论,然后学习直接偏好优化(DPO)技术,最后深入在线强化学习(Online RL)的应用。因为 SFT 是后训练的基础,DPO 是进阶技术,Online RL 是高级应用。初学者建议按照课程顺序循序渐进地学习。
| 章节 | 负责人 | 预估完成时间 | 状态 |
|---|---|---|---|
| 1.1 课程介绍 | 李柯辰 | 10.7 | ✅ |
| 1.2 后训练技术介绍 | 李柯辰 | 10.7 | ✅ |
| 2.1 监督微调基础理论 | 朱广恩 | 10.7 | ✅ |
| 2.2 监督微调实践 | 王泽宇 | 10.7 | ✅ |
| 3.1 直接偏好优化基础理论 | 王海洪 | 10.7 | ✅ |
| 3.2 直接偏好优化实践 | 张宏历 | 10.7 | ✅ |
| 4.1 在线强化学习基础理论 | 朱伯湘 | 10.7 | ✅ |
| 4.2 在线强化学习实践 | 蔡煊琪,朱伯湘 | 10.7 | ✅ |
| 5.1 总结 | 张宏历 | 10.7 | ✅ |
- 特别感谢 @Datawhale 对本项目的支持
- 如果有任何想法可以联系我们,也欢迎大家多多提出 issue
- 特别感谢以下为教程做出贡献的同学!
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议
