44
55** 解决方法** : 若内核版本过高,可能导致依赖包装不上去, 官方文档给出内核版本范围:` 5.4.X-5.15.X ` , 请将kernel版本降级. 参考[ kernel_install.md] ( ../docs/other/kernel_install.md )
66
7-
8-
97#### 2. 依赖包嵌套安装
108
11- ** 问题描述** : 使用命令` apt install lightdm ` 时报错: E: Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
12-
13- ** 解决方法** : 首先执行命令` sudo apt update ` 更新软件源数据库, 然后执行命令` sudo apt --fix-broken install ` ,用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
14-
9+ ** 问题描述** : 使用命令 ` apt install lightdm ` 时报错: E: Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
1510
11+ ** 解决方法** : 首先执行命令 ` sudo apt update ` 更新软件源数据库, 然后执行命令 ` sudo apt --fix-broken install ` ,用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
1612
1713#### 3. IOMMU未开启导致推理异常
1814
19- ** 问题描述** : host环境检验没有问题, 执行` mthreads-gmi ` 正常输出, 但是在容器中做模型推理报错:
15+ ** 问题描述** : host环境检验没有问题, 执行 ` mthreads-gmi ` 正常输出, 但是在容器中做模型推理报错:
2016
2117``` shell
2218/opt/conda/envs/py38/lib/python3.8/site-packages/torch_musa/core/device.py:156: UserWarning: MUSA initialization: Unexpected error from musaGetDeviceCount (). Did you run some musa functions before calling NumCudaDevices () that might have already set an error? Error 801: operation not supported (Triggered internally at /home/torch musa/torch musa/csrc/core/Device.cpp:93.)
@@ -43,15 +39,11 @@ sudo reboot
4339sudo cat / var/ log/ dmesg | grep - e " AMD-Vi: Interrupt remapping enabled" - e " IOMMU enabled"
4440```
4541
46-
47-
4842#### 4. 容器内 mthreads-gmi 无输出
4943
50- ** 问题描述** : host环境中执行` mthreads-gmi ` 正常输出, 但是在容器当中执行` mthreads-gmi ` 无输出
51-
52- ** 解决方法** : 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令` which mthreads-gmi ` 查看.
53-
44+ ** 问题描述** : host环境中执行 ` mthreads-gmi ` 正常输出, 但是在容器当中执行 ` mthreads-gmi ` 无输出
5445
46+ ** 解决方法** : 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令 ` which mthreads-gmi ` 查看.
5547
5648#### 5. 显示GPU显存不足问题
5749
@@ -73,17 +65,14 @@ ID Name |PCIe |%GPU Mem
7365
7466** 解决方法** : 为IOMMU问题, 如果未开启则需要开启, 如果开启, 则未生效, 需重启IOMMU. 开启方法见 ** 问题3**
7567
76-
77-
7868#### 6. mt-container-toolkit未成功安装
7969
8070** 问题描述** : 在 docker container 内部使用 torch_musa 时,报错 ImportError: libsrv_um_MUSA.so: cannot open shared object file: No such file or directory 或者 ImportError: /usr/lib/x86_64-linux-gnu/musa/libsrv_um_MUSA.so: file too short ?
8171
8272** 解决方法** : mt-container-toolkit 未安装或者安装之后未绑定摩尔线程容器运行时到 Docker. 详情参考: [ 安装指导 | 摩尔线程文档中心] ( https://docs.mthreads.com/cloud-native/cloud-native-doc-online/install_guide )
8373
84-
85-
8674#### 7. sgpu-dkms未成功安装
75+
8776** 问题描述** : 安装sgpu-dkms (mt-container-toolkit的依赖包) 时报错:
8877
8978![ FAQ_sgpu-dkms] ( ../docs/images/FAQ_sgpu-dkms.png )
@@ -107,12 +96,17 @@ dpkg --list | grep linux-image
10796# 注: 如果上述方法依然无法彻底删除对应Kernel, 可以删除/lib/modules/6.8.0-52-generic目录
10897```
10998
110- #### 8. vllm单卡推理成功,但多卡推理失败
99+ #### 8. vllm单卡推理成功,但多卡推理失败或者开启了IOMMU,驱动安装正常,containertoolkit安装正常,musa环境依然有问题
100+
101+ ** 问题描述** :
111102
112- ** 问题描述** :使用mtt_vllm 跑小模型单卡推理成功,但是跑大模型四卡推理有问题,报错:
113- ![ FAQ_vllm] ( ../docs/images/FAQ_ENV_t8.jpg )
103+ - 使用mtt_vllm 跑小模型单卡推理成功,但是跑大模型四卡推理有问题,报错:
104+ ![ FAQ_vllm] ( ../docs/images/FAQ_ENV_t8.jpg )
105+ - 开启了IOMMU,驱动安装正常,containertoolkit安装正常,musa环境依然有问题,容器内执行 musaInfo 报错:
106+ ![ FAQ_vllm] ( ../docs/images/FAQ_ENV_t8_2.png )
107+
108+ ** 解决方法** :
114109
115- ** 解决方法** :
116110``` shell
117111# 1. 开启IOMMU,关掉pcie switch的acs
118112# 注:如果是amd或者是hygon CPU,替换intel_iommu为amd_iommu
@@ -121,4 +115,4 @@ sudo sed -i 's/GRUB_CMDLINE_LINUX_DEFAULT="\(.*\)"/GRUB_CMDLINE_LINUX_DEFAULT="i
121115# 2. 更新grub并重启
122116sudo update-grub
123117sudo reboot
124- ```
118+ ```
0 commit comments