lmdeploy中TP设置成2时,当模型不能完全加载到一张显卡中,会对模型进行分层并加载到两张GPU中吗? #1474
Unanswered
hello-gary-2022
asked this question in
Q&A
Replies: 1 comment
-
Tensor Parallelism |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
在lmdeploy中,通过TP可以指定GPU数为2。 如果一个模型不能直接加载到单个GPU的显卡中,这个参数会把模型进行分层,并加载到两个GPU的显存中进行推理吗? lmdeploy是否可以加载模型并进行推理,这里的TP是指纯粹的张量并行,还是也包含模型并行?
例如 , 在case2中,lmdeploy的运行结果和原理是什么样的?
硬件:T4 GPU * 2 ,显存都为16G
case 1:
1. 设置推理时的TP=1
2. 加载一个精度为fp16,参数为14B的模型进行推理时 , 使用单个GPU无法加载这个模型。
case 2:
1. 设置推理时的TP=2
2. 加载一个精度为fp16,参数为14B的模型进行推理时 ,运行结果和原理是?
Beta Was this translation helpful? Give feedback.
All reactions