基于MultiDevices库实现快速调用多个计算设备进行推理 by YIZXIY · Pull Request #732 · zai-org/ChatGLM-6B

YIZXIY · 2023-04-20T09:12:29Z

基于MultiDevices库实现快速调用多个计算设备（CPU，GPU）在低配置情况下进行推理。6G显存+16G内存即可运行int8的模型。
https://github.com/ChaimEvans/ChatGLM_MultiGPUCPU_eval

基于MultiDevices库实现快速调用多个计算设备（CPU，GPU）在低配置情况下进行推理。6G显存+16G内存即可运行int8的模型。

Add MultiDevices 库，作者 @ChaimEvans

yhyu13 · 2023-04-23T10:16:38Z

这个和GLM_MNN的区别是什么？速度上所多少token/s？

YIZXIY · 2023-04-23T11:04:13Z

这个和GLM_MNN的区别是什么？速度上所多少token/s？

mnn没用过，win编译太难搞，这个好部署

YIZXIY added 2 commits April 20, 2023 17:05

基于MultiDevices库实现快速调用多个计算设备进行推理

79369bd

基于MultiDevices库实现快速调用多个计算设备（CPU，GPU）在低配置情况下进行推理。6G显存+16G内存即可运行int8的模型。

Add MultiDevices 库

c90ece8

Add MultiDevices 库，作者 @ChaimEvans

Provide feedback