※この記事はアフィリエイト広告を含みます
LLM的“记忆”大幅减重至五分之一!从300KB缩减到69KB,KV缓存进化的背后
📰 新闻概述
- KV缓存的戏剧性轻量化: 2019年GPT-2每个token需要300KiB的内存,而2024年的DeepSeek V3已经减少到68.6KiB。
- 演变中的架构: 技术正在从简单的全记忆方式转向在查询之间共享KV对的“GQA”,以及压缩到潜在空间的“MLA”。
- 从记忆到过滤: 最新的Gemma 3采用了滑动窗口的有限关注机制。同时,像Mamba这样的SSM(状态空间模型)采用了无缓存的处理方式。
💡 重要要点
- 物理成本的降低: KV缓存直接占用GPU内存,直接影响电力、冷却和租赁费用。这种降低对AI运作的经济性有重要影响。
- 压缩与精度的兼顾: DeepSeek的MLA将数据压缩到低维潜在空间中保存,同时显著提高了内存效率而不降低精度。
- 接近人类思维: 采用像SSM这样的技术,实时过滤重要信息,而不是像图书馆一样存储所有数据,正日益受到关注。
🦈 鲨鱼的视角(策展者观点)
DeepSeek V3的“MLA(多头潜在注意力)”实现真的非常酷!它不仅仅是共享数据(GQA),而是先将数据压缩到“潜在空间”中再保存,推理时再恢复,这一过程真的是在进行数据的“抽象化”,非常聪明!从GPT-2时代的“蛮力记忆”到如今的精致,真是工程的胜利!
🚀 未来展望
模型的“全记忆”时代已经结束,基于信息重要性的过滤技术将成为主流。这样一来,AI将能够在更少的硬件资源下处理更长的上下文。
💬 鲨鱼的一句话
节省内存是一种对地球和钱包都友好的环保进化!聪明的鲨鱼从不记住无用的事情!🦈🔥
📚 术语解释
-
KV缓存: LLM为保持对话上下文而存储在GPU内存中的数据。没有它,每次都需要从头开始读取。
-
GQA (分组查询注意力): 在多个计算单元中共享“记忆(Key/Value)”,以降低内存消耗的技术。
-
MLA (多头潜在注意力): 压缩保存数据,仅在需要时展开的更高级的内存节省技术。