Skip to content

Commit d63c4e1

Browse files
committed
add new condition
1 parent 276a337 commit d63c4e1

File tree

2 files changed

+16
-22
lines changed

2 files changed

+16
-22
lines changed

FAQ/environment_FAQ.md

Lines changed: 16 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -4,19 +4,15 @@
44

55
**解决方法**: 若内核版本过高,可能导致依赖包装不上去, 官方文档给出内核版本范围:`5.4.X-5.15.X`, 请将kernel版本降级. 参考[kernel_install.md](../docs/other/kernel_install.md)
66

7-
8-
97
#### 2. 依赖包嵌套安装
108

11-
**问题描述**: 使用命令`apt install lightdm`时报错: E:Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
12-
13-
**解决方法**: 首先执行命令`sudo apt update`更新软件源数据库, 然后执行命令`sudo apt --fix-broken install`,用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
14-
9+
**问题描述**: 使用命令 `apt install lightdm`时报错: E:Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
1510

11+
**解决方法**: 首先执行命令 `sudo apt update`更新软件源数据库, 然后执行命令 `sudo apt --fix-broken install`,用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
1612

1713
#### 3. IOMMU未开启导致推理异常
1814

19-
**问题描述**: host环境检验没有问题, 执行`mthreads-gmi`正常输出, 但是在容器中做模型推理报错:
15+
**问题描述**: host环境检验没有问题, 执行 `mthreads-gmi`正常输出, 但是在容器中做模型推理报错:
2016

2117
```shell
2218
/opt/conda/envs/py38/lib/python3.8/site-packages/torch_musa/core/device.py:156: UserWarning: MUSA initialization: Unexpected error from musaGetDeviceCount(). Did you run some musa functions before calling NumCudaDevices() that might have already set an error? Error 801: operation not supported (Triggered internally at /home/torch musa/torch musa/csrc/core/Device.cpp:93.)
@@ -43,15 +39,11 @@ sudo reboot
4339
sudo cat /var/log/dmesg | grep -e "AMD-Vi: Interrupt remapping enabled" -e "IOMMU enabled"
4440
```
4541

46-
47-
4842
#### 4. 容器内 mthreads-gmi 无输出
4943

50-
**问题描述**: host环境中执行`mthreads-gmi`正常输出, 但是在容器当中执行`mthreads-gmi`无输出
51-
52-
**解决方法**: 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令`which mthreads-gmi`查看.
53-
44+
**问题描述**: host环境中执行 `mthreads-gmi`正常输出, 但是在容器当中执行 `mthreads-gmi`无输出
5445

46+
**解决方法**: 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令 `which mthreads-gmi`查看.
5547

5648
#### 5. 显示GPU显存不足问题
5749

@@ -73,17 +65,14 @@ ID Name |PCIe |%GPU Mem
7365

7466
**解决方法**: 为IOMMU问题, 如果未开启则需要开启, 如果开启, 则未生效, 需重启IOMMU. 开启方法见 **问题3**
7567

76-
77-
7868
#### 6. mt-container-toolkit未成功安装
7969

8070
**问题描述**: 在 docker container 内部使用 torch_musa 时,报错 ImportError: libsrv_um_MUSA.so: cannot open shared object file: No such file or directory 或者 ImportError: /usr/lib/x86_64-linux-gnu/musa/libsrv_um_MUSA.so: file too short ?
8171

8272
**解决方法**: mt-container-toolkit 未安装或者安装之后未绑定摩尔线程容器运行时到 Docker. 详情参考: [安装指导 | 摩尔线程文档中心](https://docs.mthreads.com/cloud-native/cloud-native-doc-online/install_guide)
8373

84-
85-
8674
#### 7. sgpu-dkms未成功安装
75+
8776
**问题描述**: 安装sgpu-dkms (mt-container-toolkit的依赖包) 时报错:
8877

8978
![FAQ_sgpu-dkms](../docs/images/FAQ_sgpu-dkms.png)
@@ -107,12 +96,17 @@ dpkg --list | grep linux-image
10796
# 注: 如果上述方法依然无法彻底删除对应Kernel, 可以删除/lib/modules/6.8.0-52-generic目录
10897
```
10998

110-
#### 8. vllm单卡推理成功,但多卡推理失败
99+
#### 8. vllm单卡推理成功,但多卡推理失败或者开启了IOMMU,驱动安装正常,containertoolkit安装正常,musa环境依然有问题
100+
101+
**问题描述**
111102

112-
**问题描述**:使用mtt_vllm 跑小模型单卡推理成功,但是跑大模型四卡推理有问题,报错:
113-
![FAQ_vllm](../docs/images/FAQ_ENV_t8.jpg)
103+
- 使用mtt_vllm 跑小模型单卡推理成功,但是跑大模型四卡推理有问题,报错:
104+
![FAQ_vllm](../docs/images/FAQ_ENV_t8.jpg)
105+
- 开启了IOMMU,驱动安装正常,containertoolkit安装正常,musa环境依然有问题,容器内执行 musaInfo 报错:
106+
![FAQ_vllm](../docs/images/FAQ_ENV_t8_2.png)
107+
108+
**解决方法**:
114109

115-
**解决方法**:
116110
```shell
117111
# 1. 开启IOMMU,关掉pcie switch的acs
118112
# 注:如果是amd或者是hygon CPU,替换intel_iommu为amd_iommu
@@ -121,4 +115,4 @@ sudo sed -i 's/GRUB_CMDLINE_LINUX_DEFAULT="\(.*\)"/GRUB_CMDLINE_LINUX_DEFAULT="i
121115
# 2. 更新grub并重启
122116
sudo update-grub
123117
sudo reboot
124-
```
118+
```

docs/images/FAQ_ENV_t8_2.png

52.4 KB
Loading

0 commit comments

Comments
 (0)