Name	Name	Last commit message	Last commit date
parent directory ..
images	images
01DSZero.md	01DSZero.md
01DSZero.pdf	01DSZero.pdf
01DSZero.pptx	01DSZero.pptx
01DeepSpeedIntro.md	01DeepSpeedIntro.md
02DeepSpeedZero.md	02DeepSpeedZero.md
02Megatron.pdf	02Megatron.pdf
02Megatron.pptx	02Megatron.pptx
03MGConfig.pdf	03MGConfig.pdf
03MGConfig.pptx	03MGConfig.pptx
04MGTPPrinc.pdf	04MGTPPrinc.pdf
04MGTPPrinc.pptx	04MGTPPrinc.pptx
05MGTPCode.pdf	05MGTPCode.pdf
05MGTPCode.pptx	05MGTPCode.pptx
06MGSPPrinc.pdf	06MGSPPrinc.pdf
06MGSPPrinc.pptx	06MGSPPrinc.pptx
07DualPipe.md	07DualPipe.md
07MGPPPrinc.pdf	07MGPPPrinc.pdf
07MGPPPrinc.pptx	07MGPPPrinc.pptx
08MGPPCode.pdf	08MGPPCode.pdf
08MGPPCode.pptx	08MGPPCode.pptx
08PPGpipe.md	08PPGpipe.md
09PPInterleaved.md	09PPInterleaved.md
09XCCLBackend.pdf	09XCCLBackend.pdf
09XCCLBackend.pptx	09XCCLBackend.pptx
10PPCode.md	10PPCode.md
Code01ZeRO.ipynb	Code01ZeRO.ipynb
Code01ZeRO.md	Code01ZeRO.md
Code02Megatron.ipynb	Code02Megatron.ipynb
Code02Megatron.md	Code02Megatron.md
Code03Pipeline.ipynb	Code03Pipeline.ipynb
Code03Pipeline.md	Code03Pipeline.md
Code04Expert.ipynb	Code04Expert.ipynb
Code04Expert.md	Code04Expert.md
README.md	README.md

Name

Last commit message

Last commit date

大模型并行进阶

分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体，简单增加机器数量并不能提升算力，需要有并行策略和通信设计，才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。

内容大纲

大纲	小节	链接	状态
分布式并行	01 优化器并行 ZeRO1/2/3 原理	PPT, 视频
分布式并行	02 Megatron-LM 代码概览	PPT, 视频
分布式并行	03 大模型并行与 GPU 集群配置	PPT, 视频
分布式并行	04 Megatron-LM TP 原理	PPT, 视频
分布式并行	05 Megatron-LM TP 代码解析	PPT, 视频
分布式并行	06 Megatron-LM SP 代码解析	PPT, 视频
分布式并行	07 Megatron-LM PP 基本原理	PPT, 视频
分布式并行	08 流水并行 1F1B/1F1B Interleaved 原理	PPT, 视频
分布式并行	09 Megatron-LM 流水并行 PP 代码解析	PPT, 视频
💖	🌟	💖
并行实践 💻	CODE 01: ZeRO 显存优化实践	Markdown, Jupyter, 文章	✅
并行实践 💻	CODE 02: Megatron 张量并行复现	Markdown, Jupyter, 文章	✅
并行实践 💻	CODE 03: Pipeline 并行实践	Markdown, Jupyter, 文章	✅
并行实践 💻	CODE 04: 专家并行大规模训练	Markdown, Jupyter, 文章	✅

备注

文字课程内容正在一节节补充更新，每晚会抽空继续更新正在 AI Infra ，希望您多多鼓励和参与进来！！！

文字课程开源在 AI Infra，系列视频托管B 站和油管，PPT 开源在github，欢迎引用！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

大模型并行进阶

内容大纲

备注

FilesExpand file tree

02ParallelAdv

Directory actions

More options

Directory actions

More options

Latest commit

History

02ParallelAdv

Folders and files

parent directory

README.md

大模型并行进阶

内容大纲

备注