Skip to content

7B onnx模型(float16) 占用显存超过32G  #19

@iamhere1

Description

@iamhere1

机器配置:32G GPU

实验步骤:

  1. 将这里 (https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD) Chinese-Alpaca-Plus-7B 模型和原版LLaMA进行合并,得到一个新的模型new_chinese;
  2. 使用本项目说明文档提到的方法 (https://github.com/tpoisonooo/llama.onnx),将new_chinese模型转为onnx模型 new_chinese_onnx;
  3. 使用本项目说明文档提到的方法 (https://github.com/tpoisonooo/llama.onnx),将new_chinese_onnx模型转化为精度是fp16的模型new_chinese_onnx_fp16;
  4. 运行python3 demo_llama.py,
    使用GPU:模型加载完毕之前,程序会因显存不足报错;
    使用CPU,能加载成功

问题:
在转onnx之前,模型可以被加载到显存并成功执行inference;
转onnx之后,无论是否继续转为精度fp16的模型,都因显存不足而报错。
请问,对于当前的32G显存gpu, 有什么方法,可以使用转化后的onnx模型来做预测吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions