-
Notifications
You must be signed in to change notification settings - Fork 29
Open
Description
机器配置:32G GPU
实验步骤:
- 将这里 (https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD) Chinese-Alpaca-Plus-7B 模型和原版LLaMA进行合并,得到一个新的模型new_chinese;
- 使用本项目说明文档提到的方法 (https://github.com/tpoisonooo/llama.onnx),将new_chinese模型转为onnx模型 new_chinese_onnx;
- 使用本项目说明文档提到的方法 (https://github.com/tpoisonooo/llama.onnx),将new_chinese_onnx模型转化为精度是fp16的模型new_chinese_onnx_fp16;
- 运行python3 demo_llama.py,
使用GPU:模型加载完毕之前,程序会因显存不足报错;
使用CPU,能加载成功
问题:
在转onnx之前,模型可以被加载到显存并成功执行inference;
转onnx之后,无论是否继续转为精度fp16的模型,都因显存不足而报错。
请问,对于当前的32G显存gpu, 有什么方法,可以使用转化后的onnx模型来做预测吗?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels