本文主要向用户介绍如何快速基于PyTorch框架以及MindSpore框架完成MindSpeed LLM(大语言模型分布式训练套件)的安装。
表 1 产品硬件支持列表
| 产品 | 是否支持 |
|---|---|
| Atlas A3 训练系列产品 | √ |
| Atlas A3 推理系列产品 | x |
| Atlas A2 训练系列产品 | √ |
| Atlas A2 推理系列产品 | x |
| Atlas 200I/500 A2 推理产品 | x |
| Atlas 推理系列产品 | x |
| Atlas 训练系列产品 | x |
Note
本节表格中“√”代表支持,“x”代表不支持。
- 各硬件产品对应物理机部署场景支持的操作系统请参考兼容性查询助手。
- 各硬件产品对应虚拟机部署场景支持的操作系统请参考《CANN 软件安装指南》的“操作系统兼容性说明”章节(商用版)或“操作系统兼容性说明”章节(社区版)。
- 各硬件产品对应容器部署场景支持的操作系统请参考《CANN 软件安装指南》的“操作系统兼容性说明”章节(商用版)或“操作系统兼容性说明”章节(社区版)。
请参见《版本说明》中的“相关产品版本配套说明”章节,下载安装对应的软件版本。
下载驱动固件,请根据系统和硬件产品型号选择对应版本的社区版本或商用版本的驱动与固件。 参考如下命令安装:
chmod +x Ascend-hdk-<chip_type>-npu-driver_<version>_linux-<arch>.run
chmod +x Ascend-hdk-<chip_type>-npu-firmware_<version>.run
./Ascend-hdk-<chip_type>-npu-driver_<version>_linux-<arch>.run --full --force
./Ascend-hdk-<chip_type>-npu-firmware_<version>.run --full更多驱动与固件安装的详细信息,请参考《CANN软件安装指南》中的“安装NPU驱动固件”章节(商用版)或“安装NPU驱动固件”章节(社区版)。
获取CANN,安装配套版本的Toolkit、ops和NNAL并配置CANN环境变量。具体请参考《CANN 软件安装指南》(商用版)或《CANN 软件安装指南》(社区版)。
#基于PyTorch框架设置环境变量
source /usr/local/Ascend/cann/set_env.sh # 修改为实际安装的Toolkit包路径
source /usr/local/Ascend/nnal/atb/set_env.sh # 修改为实际安装的nnal包路径#基于MindSpore框架设置环境变量
source /usr/local/Ascend/cann/set_env.sh # 修改为实际安装的Toolkit包路径
source /usr/local/Ascend/nnal/atb/set_env.sh --cxx_abi=0 # 修改为实际安装的nnal包路径[!NOTICE]
建议使用非root用户安装运行torch_npu,且建议对安装程序的目录文件做好权限管控:文件夹权限设置为750,文件权限设置为640。可以通过设置umask控制安装后文件的权限,如设置umask为0027。 更多安全相关内容请参见《安全声明》中各组件关于“文件权限控制”的说明。
请参考《Ascend Extension for PyTorch 软件安装指南》中的“安装PyTorch框架”章节,获取配套版本的PyTorch以及torch_npu软件包。 可参考如下安装命令:
# 安装torch和torch_npu构建参考 https://gitcode.com/ascend/pytorch/releases
pip3 install torch-2.7.1-cp310-cp310-manylinux_2_28_aarch64.whl
pip3 install torch_npu-2.7.1rc1-cp310-cp310-manylinux_2_28_aarch64.whl请参考如下操作获取对应源码及安装相关依赖,完成MindSpeed LLM的安装。
-
使能环境变量。
# 请根据实际路径进行替换 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh
-
安装MindSpeed加速库。
git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master # checkout commit from MindSpeed master pip3 install -r requirements.txt pip3 install -e . cd ..
-
准备MindSpeed LLM及Megatron-LM源码。
git clone https://gitcode.com/ascend/MindSpeed-LLM.git git clone https://github.com/NVIDIA/Megatron-LM.git # 从github下载Megatron-LM,请确保网络能访问 cd Megatron-LM git checkout core_v0.12.1 cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master mkdir logs pip3 install -r requirements.txt # 安装其余依赖库
参考MindSpore完成MindSpore的安装。
请参考如下操作完成MindSpeed LLM及相关依赖的安装。
-
使能环境变量。
source /usr/local/Ascend/cann/set_env.sh # 修改为实际安装的Toolkit包路径 source /usr/local/Ascend/nnal/atb/set_env.sh --cxx_abi=0 # 修改为实际安装的nnal包路径
-
安装MindSpeed-Core-MS转换工具。
git clone https://gitcode.com/ascend/MindSpeed-Core-MS.git -b master
-
使用MindSpeed-Core-MS内部脚本提供配置环境。
cd MindSpeed-Core-MS pip3 install -r requirements.txt # 安装第三方依赖 source auto_convert.sh llm # 拉取训练所需组件库 source tests/scripts/set_path.sh # 设置环境变量