LLM IN FLASH

Author by: 于佼良

大模型在资源受限的场景下如何高效运行，是端侧场景始终关注的一个重要课题。这篇来自苹果的论文，主要就在讨论当端侧 dram 大小不足以支撑大模型执行时，如何高效的借用 flash 来完成推理。下面展开一下这篇论文的相关内容。

一、flash 与大模型推理

1、现状

以手机为例，在大模型的推理场景中，主要会涉及到三个“存储空间”，分别为 flash，dram 以及 npu 自带的片上缓存，如下图所示。

在模型没有被拉起执行的时候，模型与权重文件都会存放在 flash 上；如果模型被拉起执行，那么模型与权重就会被加载到 dram 上，这时一个 7b 的模型，如果参数量化为 fp16，那么把它全部加载进 dram 就需要占用超过 14G 的内存，这对于手机来说是难以承受的，毕竟大部分手机的内存只有 12G 或者 16G，当然现在端侧有更极端的压缩方式，来降低模型的大小，但是 dram 总是显得非常昂贵，所以越少占用，总是越好。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LLM IN FLASH

一、flash 与大模型推理

1、现状

FilesExpand file tree

07LLM_In_Flash.md

Latest commit

History

07LLM_In_Flash.md

File metadata and controls

LLM IN FLASH

一、flash 与大模型推理

1、现状