Skip to content

Latest commit

 

History

History
345 lines (316 loc) · 10.1 KB

File metadata and controls

345 lines (316 loc) · 10.1 KB

MindSpore后端

支持说明

MindSpeed-LLM已支持接入华为自研AI框架MindSpore,旨在提供华为全栈易用的端到端的大语言模型训练解决方案,以此获得更极致的性能体验。MindSpore后端提供了一套对标PyTorch的API,用户无需进行额外代码适配即可无缝切换。


NEWS !!! 📣📣📣

🚀🚀🚀MindSpore后端已支持 Deepseek-V3/QWEN3/GLM-4.5 !!!🚀🚀🚀

版本配套表

MindSpeed-LLM + MindSpore后端的依赖配套如下表,安装步骤参考MindSpeed LLM安装指导

依赖软件 版本
昇腾NPU驱动 在研版本
昇腾NPU固件
Toolkit(开发套件) CANN 8.5.0
Kernel(算子包)
NNAL(Ascend Transformer Boost加速库)
Python 3.10
MindSpore 2.8.0
注:由于master分支使用在研版本的驱动以及CANN包,因此master上的一些新特性老版本配套可能有不支持情况,要使用稳定版本,请切换到商发分支并下载对应依赖版本进行安装。 |

模型支持

MindSpore后端仅支持以 mcore 方式实现的模型,当前模型支持详情见下表,更多模型支持将逐步上线,敬请期待!

模型类别 模型列表
模型支持列表 supported_models

特性支持

MindSpore后端对MindSpeed的重要加速特性的支持情况如下表所示,部分不支持的特性将在后续迭代中逐步支持,敬请期待。

场景 特性名称 支持情况
SPTD并行 张量并行
流水线并行
虚拟流水并行
序列并行
Noop Layers
Seq1F1B流水线并行
全分片并行 暂不支持开启pp及--reuse-fp32-param参数配置
长序列并行 Ascend Ring Attention 长序列并行
Ulysses 长序列并行
MOE MOE 专家并行
MOE 重排通信优化 仅支持alltoall
显存优化 参数副本复用 须和分布式优化器特性一起使用
分布式优化器
重计算
Norm重计算
Virtual Optimizer
融合算子 Flash attention
Flash attention variable length
Fused rmsnorm
Fused swiglu
Fused rotary position embedding
GMM
Matmul Add
通信优化 梯度reduce通算掩盖
权重all-gather通算掩盖
CoC
AllToAllVC 通信算子

在线推理

特性 是否支持
流式推理
Chat对话
yarn上下文扩展

开源数据集评测

即将上线,敬请期待!

开发工具链

数据预处理

MindSpore后端已完全支持MindSpeed-LLM的预训练、指令微调、RLHF等多种任务的数据预处理。

任务场景 数据集 Mcore Released 贡献方
预训练 预训练数据处理 【Ascend】
微调 Alpaca风格
ShareGPT风格
DPO Pairwise数据集处理 【NAIE】

权重转换

MindSpeed MindSpore后端的权重转换与PyTorch后端保持了一致,当前支持huggingface、megatron-core两种格式的权重互转。权重转换特性参数和使用说明参考权重转换

源格式 目标格式 切分特性 lora 贡献方
huggingface megatron-core tp、pp、dpp、vpp、cp、ep、loop layer 【Ascend】
megatron-core huggingface
megatron-core tp、pp、dpp、vpp、cp、ep、loop layer

性能采集

场景 特性 Mcore 贡献方
性能采集 基于昇腾芯片采集 profiling 数据 【Ascend】

高可用性

场景 特性 Mcore 贡献方
高可用性 基于昇腾芯片开启确定性计算 【Ascend】