MooreThreads
diff --git a/‎FAQ/environment_FAQ.md‎
Lines changed: 16 additions & 22 deletions b/‎FAQ/environment_FAQ.md‎
Lines changed: 16 additions & 22 deletions
diff --git a/‎docs/images/FAQ_ENV_t8_2.png‎
52.4 KB b/‎docs/images/FAQ_ENV_t8_2.png‎
52.4 KB
@@ -4,19 +4,15 @@
 
 **解决方法**: 若内核版本过高，可能导致依赖包装不上去, 官方文档给出内核版本范围：`5.4.X-5.15.X`, 请将kernel版本降级.  参考[kernel_install.md](../docs/other/kernel_install.md)
 
-
-
 #### 2. 依赖包嵌套安装
 
-**问题描述**: 使用命令`apt install lightdm`时报错: E:Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
-
-**解决方法**: 首先执行命令`sudo apt update`更新软件源数据库, 然后执行命令`sudo apt --fix-broken install`，用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
-
+**问题描述**: 使用命令 `apt install lightdm`时报错: E:Unmet dependencies.Try 'apt --fix-broken install' with no packages (or specify a solution).
 
+**解决方法**: 首先执行命令 `sudo apt update`更新软件源数据库, 然后执行命令 `sudo apt --fix-broken install`，用于尝试自动修复由于依赖关系不满足而导致的软件包管理问题
 
 #### 3. IOMMU未开启导致推理异常
 
-**问题描述**: host环境检验没有问题, 执行`mthreads-gmi`正常输出, 但是在容器中做模型推理报错: 
+**问题描述**: host环境检验没有问题, 执行 `mthreads-gmi`正常输出, 但是在容器中做模型推理报错:
 
 ```shell
 /opt/conda/envs/py38/lib/python3.8/site-packages/torch_musa/core/device.py:156: UserWarning: MUSA initialization: Unexpected error from musaGetDeviceCount(). Did you run some musa functions before calling NumCudaDevices() that might have already set an error? Error 801: operation not supported (Triggered internally at /home/torch musa/torch musa/csrc/core/Device.cpp:93.)
@@ -43,15 +39,11 @@ sudo reboot
 sudo cat /var/log/dmesg | grep -e "AMD-Vi: Interrupt remapping enabled" -e "IOMMU enabled"
 ```
 
-
-
 #### 4. 容器内 mthreads-gmi 无输出
 
-**问题描述**: host环境中执行`mthreads-gmi`正常输出, 但是在容器当中执行`mthreads-gmi`无输出
-
-**解决方法**: 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令`which mthreads-gmi`查看.
-
+**问题描述**: host环境中执行 `mthreads-gmi`正常输出, 但是在容器当中执行 `mthreads-gmi`无输出
 
+**解决方法**: 将host环境中的mthreads-gmi文件cp到容器中mthreads-gmi对应位置. 可使用命令 `which mthreads-gmi`查看.
 
 #### 5. 显示GPU显存不足问题
 
@@ -73,17 +65,14 @@ ID   Name           |PCIe                |%GPU  Mem
 
 **解决方法**: 为IOMMU问题, 如果未开启则需要开启, 如果开启, 则未生效, 需重启IOMMU. 开启方法见 **问题3**
 
-
-
 #### 6. mt-container-toolkit未成功安装
 
 **问题描述**: 在 docker container 内部使用 torch_musa 时，报错 ImportError: libsrv_um_MUSA.so: cannot open shared object file: No such file or directory 或者 ImportError: /usr/lib/x86_64-linux-gnu/musa/libsrv_um_MUSA.so: file too short ？
 
 **解决方法**: mt-container-toolkit 未安装或者安装之后未绑定摩尔线程容器运行时到 Docker. 详情参考: [安装指导 | 摩尔线程文档中心](https://docs.mthreads.com/cloud-native/cloud-native-doc-online/install_guide)
 
-
-
 #### 7. sgpu-dkms未成功安装
+
 **问题描述**: 安装sgpu-dkms (mt-container-toolkit的依赖包) 时报错:
 
 ![FAQ_sgpu-dkms](../docs/images/FAQ_sgpu-dkms.png)
@@ -107,12 +96,17 @@ dpkg --list | grep linux-image
 #  注: 如果上述方法依然无法彻底删除对应Kernel, 可以删除/lib/modules/6.8.0-52-generic目录
 ```
 
-#### 8. vllm单卡推理成功，但多卡推理失败
+#### 8. vllm单卡推理成功，但多卡推理失败或者开启了IOMMU，驱动安装正常，containertoolkit安装正常，musa环境依然有问题
+
+**问题描述**：
 
-**问题描述**：使用mtt_vllm 跑小模型单卡推理成功，但是跑大模型四卡推理有问题，报错：
-![FAQ_vllm](../docs/images/FAQ_ENV_t8.jpg)
+- 使用mtt_vllm 跑小模型单卡推理成功，但是跑大模型四卡推理有问题，报错：
+  ![FAQ_vllm](../docs/images/FAQ_ENV_t8.jpg)
+- 开启了IOMMU，驱动安装正常，containertoolkit安装正常，musa环境依然有问题，容器内执行 musaInfo 报错：
+  ![FAQ_vllm](../docs/images/FAQ_ENV_t8_2.png)
+
+**解决方法**:
 
-**解决方法**: 
 ```shell
 # 1. 开启IOMMU，关掉pcie switch的acs
 # 注：如果是amd或者是hygon CPU，替换intel_iommu为amd_iommu
@@ -121,4 +115,4 @@ sudo sed -i 's/GRUB_CMDLINE_LINUX_DEFAULT="\(.*\)"/GRUB_CMDLINE_LINUX_DEFAULT="i
 # 2. 更新grub并重启
 sudo update-grub
 sudo reboot
-```
+```