LLM的"记忆"大幅减重至五分之一！从300KB缩减到69KB，KV缓存进化的背后

物理成本的降低: KV缓存直接占用<a href="https://www.amazon.co.jp/s?k=NVIDIA%20RTX%204070&#x26;tag=harushark-22" rel="nofollow sponsored">GPU 内存，直接影响电力、冷却和租赁费用。这种降低对AI运作的经济性有重要影响。
压缩与精度的兼顾: DeepSeek的MLA将数据压缩到低维潜在空间中保存，同时显著提高了内存效率而不降低精度。
接近人类思维: 采用像SSM这样的技术，实时过滤重要信息，而不是像图书馆一样存储所有数据，正日益受到关注。

※この記事はアフィリエイト広告を含みます

LLM的“记忆”大幅减重至五分之一！从300KB缩减到69KB，KV缓存进化的背后

DeepSeek V3的“MLA（多头潜在注意力）”实现真的非常酷！它不仅仅是共享数据（GQA），而是先将数据压缩到“潜在空间”中再保存，推理时再恢复，这一过程真的是在进行数据的“抽象化”，非常聪明！从GPT-2时代的“蛮力记忆”到如今的精致，真是工程的胜利！

模型的“全记忆”时代已经结束，基于信息重要性的过滤技术将成为主流。这样一来，AI将能够在更少的硬件资源下处理更长的上下文。

节省内存是一种对地球和钱包都友好的环保进化！聪明的鲨鱼从不记住无用的事情！🦈🔥