3 min read
[AI 小众新闻]

注意!AI代理的“二次函数成本爆炸”现象:5万token的费用大部分来自缓存读取


分析显示,在编码代理等长对话中,缓存读取成本累积,最终占据费用的87%。

※この記事はアフィリエイト広告を含みます

[AI小新闻] 注意!AI代理的“二次函数成本爆炸”现象!

📰 新闻摘要

  • 在AI代理的循环处理中,随着对话历史的加长,“缓存读取”的成本逐渐占据主导地位。
  • 分析表明,在约27,500 token时,缓存读取已占下一次API调用成本的一半,而在50,000 token时则成为费用的主要部分。
  • 在一个实际的开发对话示例中,最终发现缓存读取费用达到了总成本的87%。

💡 重要要点

  • 累积的缓存费用:LLM提供商除了对输入和输出收费外,还对缓存的写入和读取收费,而读取费用会随着“token数 × 调用次数”增加,因此实际上呈现出二次函数式的增长。
  • 模拟结果:根据Anthropic的收费体系(如Opus 4.5等),仅20,000 token左右,缓存读取成本就开始占据主导地位。
  • 精度的权衡:为了降低成本,减少LLM的调用次数可能会导致反馈循环失效,使代理无法到达正确目标的风险。

🦈 鲨鱼的视角(策展者观点)

对话越长,单纯“重读”过去的记录就越容易让钱“溶解”,这结构实在令人恐惧!这篇文章的精彩之处在于,不仅仅是“LLM很贵”,而是具体展示了在特定的token数量(2万到5万)下,成本结构会剧烈变化。特别是编码代理类型,需要频繁调用工具进行试错,最容易陷入这个“二次函数陷阱”。未来,实现层面上的成本设计,比如使用子代理来避免污染主上下文,将变得至关重要!

🚀 未来发展趋势

  • 在代理开发中,越来越重要的是不要持续维持主上下文,而是对必要信息进行总结,或者根据任务分离上下文,形成“分层代理”。
  • 可能会出现缓存读取单价进一步降低的趋势,以及提供商之间在更高效的增量缓存方面的价格竞争加剧。

💬 鲨鱼的总结

方便是方便,但如果一直无所事事地闲聊,等意识到时,可能已经因为缓存费用而“心痛”了!聪明地结束谈话,才是优秀的鲨鱼与优秀代理的必备素养!🦈🔥

📚 术语解说

  • 缓存读取 (Cache Reads):在让LLM重用过去的对话数据时,从已经存储(缓存)在服务器上的信息中读取。通常比常规输入便宜,但数量增多后会累积。

  • 二次函数成本:随着变量(此处为token数或调用次数)的增长,成本急剧增加,类似于其平方的关系。

  • 上下文窗口:LLM一次能处理的信息范围。代理在这个范围内填充历史记录,但填充越多,读取成本就越高。

  • 信息来源: Expensively Quadratic: The LLM Agent Cost Curve

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈