MindSpeed-LLM已支持接入华为自研AI框架MindSpore,旨在提供华为全栈易用的端到端的大语言模型训练解决方案,以此获得更极致的性能体验。MindSpore后端提供了一套对标PyTorch的API,用户无需进行额外代码适配即可无缝切换。
🚀🚀🚀MindSpore后端已支持 Deepseek-V3/QWEN3/GLM-4.5 !!!🚀🚀🚀
MindSpeed-LLM + MindSpore后端的依赖配套如下表,安装步骤参考MindSpeed LLM安装指导。
| 依赖软件 | 版本 |
|---|---|
| 昇腾NPU驱动 | 在研版本 |
| 昇腾NPU固件 | |
| Toolkit(开发套件) | CANN 8.5.0 |
| Kernel(算子包) | |
| NNAL(Ascend Transformer Boost加速库) | |
| Python | 3.10 |
| MindSpore | 2.8.0 |
MindSpore后端仅支持以 mcore 方式实现的模型,当前模型支持详情见下表,更多模型支持将逐步上线,敬请期待!
| 模型类别 | 模型列表 |
|---|---|
| 模型支持列表 | supported_models |
MindSpore后端对MindSpeed的重要加速特性的支持情况如下表所示,部分不支持的特性将在后续迭代中逐步支持,敬请期待。
| 场景 | 特性名称 | 支持情况 |
|---|---|---|
| SPTD并行 | 张量并行 | ✅ |
| 流水线并行 | ✅ | |
| 虚拟流水并行 | ✅ | |
| 序列并行 | ✅ | |
| Noop Layers | ✅ | |
| Seq1F1B流水线并行 | ✅ | |
| 全分片并行 | 暂不支持开启pp及--reuse-fp32-param参数配置 | |
| 长序列并行 | Ascend Ring Attention 长序列并行 | ✅ |
| Ulysses 长序列并行 | ✅ | |
| MOE | MOE 专家并行 | ✅ |
| MOE 重排通信优化 | 仅支持alltoall | |
| 显存优化 | 参数副本复用 | 须和分布式优化器特性一起使用 |
| 分布式优化器 | ✅ | |
| 重计算 | ✅ | |
| Norm重计算 | ✅ | |
| Virtual Optimizer | ✅ | |
| 融合算子 | Flash attention | ✅ |
| Flash attention variable length | ✅ | |
| Fused rmsnorm | ✅ | |
| Fused swiglu | ✅ | |
| Fused rotary position embedding | ✅ | |
| GMM | ✅ | |
| Matmul Add | ✅ | |
| 通信优化 | 梯度reduce通算掩盖 | ✅ |
| 权重all-gather通算掩盖 | ✅ | |
| CoC | ✅ | |
| AllToAllVC 通信算子 | ✅ |
| 特性 | 是否支持 |
|---|---|
| 流式推理 | ✅ |
| Chat对话 | ✅ |
| yarn上下文扩展 | ✅ |
即将上线,敬请期待!
MindSpore后端已完全支持MindSpeed-LLM的预训练、指令微调、RLHF等多种任务的数据预处理。
| 任务场景 | 数据集 | Mcore | Released | 贡献方 |
|---|---|---|---|---|
| 预训练 | 预训练数据处理 | ✅ | ✅ | 【Ascend】 |
| 微调 | Alpaca风格 | ✅ | ✅ | |
| ShareGPT风格 | ✅ | ✅ | ||
| DPO | Pairwise数据集处理 | ✅ | ✅ | 【NAIE】 |
MindSpeed MindSpore后端的权重转换与PyTorch后端保持了一致,当前支持huggingface、megatron-core两种格式的权重互转。权重转换特性参数和使用说明参考权重转换。
| 源格式 | 目标格式 | 切分特性 | lora | 贡献方 |
|---|---|---|---|---|
| huggingface | megatron-core | tp、pp、dpp、vpp、cp、ep、loop layer | ❌ | 【Ascend】 |
| megatron-core | huggingface | ✅ | ||
| megatron-core | tp、pp、dpp、vpp、cp、ep、loop layer | ❌ |
| 场景 | 特性 | Mcore | 贡献方 |
|---|---|---|---|
| 性能采集 | 基于昇腾芯片采集 profiling 数据 | ✅ | 【Ascend】 |
| 场景 | 特性 | Mcore | 贡献方 |
|---|---|---|---|
| 高可用性 | 基于昇腾芯片开启确定性计算 | ✅ | 【Ascend】 |