3 min read
[AI 小众新闻]

LLM的"记忆"大幅减重至五分之一!从300KB缩减到69KB,KV缓存进化的背后


\'- KV缓存的戏剧性轻量化: 2019年GPT-2每个token需要300KiB的内存,而2024年的DeepSeek V3已经减少到68.6KiB。...\'

※この記事はアフィリエイト広告を含みます

LLM的“记忆”大幅减重至五分之一!从300KB缩减到69KB,KV缓存进化的背后

📰 新闻概述

  • KV缓存的戏剧性轻量化: 2019年GPT-2每个token需要300KiB的内存,而2024年的DeepSeek V3已经减少到68.6KiB。
  • 演变中的架构: 技术正在从简单的全记忆方式转向在查询之间共享KV对的“GQA”,以及压缩到潜在空间的“MLA”。
  • 从记忆到过滤: 最新的Gemma 3采用了滑动窗口的有限关注机制。同时,像Mamba这样的SSM(状态空间模型)采用了无缓存的处理方式。

💡 重要要点

  • 物理成本的降低: KV缓存直接占用GPU内存,直接影响电力、冷却和租赁费用。这种降低对AI运作的经济性有重要影响。
  • 压缩与精度的兼顾: DeepSeek的MLA将数据压缩到低维潜在空间中保存,同时显著提高了内存效率而不降低精度。
  • 接近人类思维: 采用像SSM这样的技术,实时过滤重要信息,而不是像图书馆一样存储所有数据,正日益受到关注。

🦈 鲨鱼的视角(策展者观点)

DeepSeek V3的“MLA(多头潜在注意力)”实现真的非常酷!它不仅仅是共享数据(GQA),而是先将数据压缩到“潜在空间”中再保存,推理时再恢复,这一过程真的是在进行数据的“抽象化”,非常聪明!从GPT-2时代的“蛮力记忆”到如今的精致,真是工程的胜利!

🚀 未来展望

模型的“全记忆”时代已经结束,基于信息重要性的过滤技术将成为主流。这样一来,AI将能够在更少的硬件资源下处理更长的上下文。

💬 鲨鱼的一句话

节省内存是一种对地球和钱包都友好的环保进化!聪明的鲨鱼从不记住无用的事情!🦈🔥

📚 术语解释

  • KV缓存: LLM为保持对话上下文而存储在GPU内存中的数据。没有它,每次都需要从头开始读取。

  • GQA (分组查询注意力): 在多个计算单元中共享“记忆(Key/Value)”,以降低内存消耗的技术。

  • MLA (多头潜在注意力): 压缩保存数据,仅在需要时展开的更高级的内存节省技术。

  • 信息来源: 从300KB到每个Token 69KB:LLM架构如何解决KV缓存问题

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈