Skip to content

Latest commit

 

History

History
14 lines (8 loc) · 1.15 KB

File metadata and controls

14 lines (8 loc) · 1.15 KB

LLM IN FLASH

Author by: 于佼良

大模型在资源受限的场景下如何高效运行,是端侧场景始终关注的一个重要课题。这篇来自苹果的论文,主要就在讨论当端侧 dram 大小不足以支撑大模型执行时,如何高效的借用 flash 来完成推理。下面展开一下这篇论文的相关内容。

一、flash 与大模型推理

1、现状

以手机为例,在大模型的推理场景中,主要会涉及到三个“存储空间”,分别为 flash,dram 以及 npu 自带的片上缓存,如下图所示。

memofedge

在模型没有被拉起执行的时候,模型与权重文件都会存放在 flash 上;如果模型被拉起执行,那么模型与权重就会被加载到 dram 上,这时一个 7b 的模型,如果参数量化为 fp16,那么把它全部加载进 dram 就需要占用超过 14G 的内存,这对于手机来说是难以承受的,毕竟大部分手机的内存只有 12G 或者 16G,当然现在端侧有更极端的压缩方式,来降低模型的大小,但是 dram 总是显得非常昂贵,所以越少占用,总是越好。