这是一个包含粗体文本和斜体文本的段落。你也可以使用删除线来标记已删除的内容。还可以使用 Inline Code 来强调技术术语。
无序列表示例:
- 第一项
- 第二项
- 第三项
有序列表示例:
- 步骤一
- 步骤二
- 步骤三
任务列表示例:
- 已完成任务
- 待完成任务
这是一个到 BaiDu 的链接。
这是一张图片:
这是一个包含脚注的句子1。
def hello_world():
print("Hello, World!")
return 42我们定义了一个名为 hello_world 的 Python 函数。
欧拉公式是数学中最优美的公式之一,它展示了指数函数与三角函数之间的深刻联系:
当
这个恒等式将数学中五个最重要的常数
文章提出了一种名为 H2O[@zhang2023h2oheavyhitteroracleefficient] 的 KV 缓存驱逐策略。文章提出了一种名为 InfLLM [@xiao2024infllmtrainingfreelongcontextextrapolation] 的免训练、基于记忆的方法。
| 方法 | 类型 | 核心技术 | 性能指标 |
|---|---|---|---|
| H2O[@zhang2023h2oheavyhitteroracleefficient] | 驱逐 | 保留高注意力分数 token 和近期 token | 20% 缓存保持完整性能,吞吐量 x29 倍 |
| InfLLM[@xiao2024infllmtrainingfreelongcontextextrapolation] | 驱逐 | 滑动窗口 + 块级记忆检索 | 支持 100 万 + token,显存降至 1/3 |
| KVQuant[@hooper2025kvquant10millioncontext] | 量化 | 按通道量化 + RoPE 前量化 + 稠密 - 稀疏分离 | 3bit 量化无损,4.8 倍压缩,速度 x1.7 倍 |
| ShadowKV[@sun2025shadowkvkvcacheshadows] | 量化 + 卸载 | 低秩 Key 压缩 + Value 卸载 + 地标索引 | 6 倍压缩,1.56% 稀疏预算,吞吐量 x3 倍 |
| :KV Cache 相关技术总结 |
<w:p>
<w:r>
<w:br w:type="page"/>
</w:r>
</w:p>
Footnotes
-
这是脚注的内容。 ↩
