Skip to content

Latest commit

 

History

History
 
 

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

README.md

通信与存储概述

通信架构主要是指各种类型的 XCCL 集合通信库,大模型在推理的 PD 分离和分布式训练,都对集合通信库有很强烈的诉求,网络模型的参数需要相互传递,因此 XCCL 极大帮助大模型更好地训练和推理。

课程位置

AI Infra

课程简介

  • 01. AI 集群存储:想要占领大模型应用的高地,数据和算力可以说是不可或缺的基石。和算力相关的讨论已经有很多,以至于英伟达的市值在 2023 年翻了两番。同样不应小觑的还有数据,除了数据量的爆炸性增长,数据的读取、写入、传输等基础性能,开始遇到越来越多的新挑战。

  • 02. 集合通信原理:集合通信原理主要介绍在 AI 集群或者大模型训练、推理的过程中,使用到的通信原理涉及相关知识,如什么是通信域、通信算法、集合通信原语的类型,除了集合通信的基本原理,还会介绍 AI 集群通信过程中相关的硬件介质,如片内互联、片外互联或者叫带内带外互联的方式方法。

  • 03. 集合通信库:MPI 是集合通信库的鼻祖,英伟达 NVIDIA 大量的参考和借鉴 MPI 通信库相关的内容从而提出了业界集合通信库的标杆 NCCL。本将会从 MPI 开始,介绍业界的各种主流集合通信库的变种 XCCL。然后深入地剖析 NCCL 相关的实现算法、对外 API 等,最后还会介绍华为开源的 HCCL 集合通信库。

课程脑图

脑图

课程知识

AI Infra

备注

系列视频托管B 站油管,PPT 开源在github,欢迎引用!

非常希望您参与到这个开源课程中,B 站给 ZOMI 留言哦!