注意！AI代理的“二次函数成本爆炸”现象：5万token的费用大部分来自缓存读取

#AI代理 #LLM #成本优化

※この記事はアフィリエイト広告を含みます

[AI小新闻] 注意！AI代理的“二次函数成本爆炸”现象！

📰 新闻摘要

在AI代理的循环处理中，随着对话历史的加长，“缓存读取”的成本逐渐占据主导地位。
分析表明，在约27,500 token时，缓存读取已占下一次API调用成本的一半，而在50,000 token时则成为费用的主要部分。
在一个实际的开发对话示例中，最终发现缓存读取费用达到了总成本的87%。

💡 重要要点

累积的缓存费用：LLM提供商除了对输入和输出收费外，还对缓存的写入和读取收费，而读取费用会随着“token数 × 调用次数”增加，因此实际上呈现出二次函数式的增长。
模拟结果：根据Anthropic的收费体系（如Opus 4.5等），仅20,000 token左右，缓存读取成本就开始占据主导地位。
精度的权衡：为了降低成本，减少LLM的调用次数可能会导致反馈循环失效，使代理无法到达正确目标的风险。

🦈 鲨鱼的视角（策展者观点）

对话越长，单纯“重读”过去的记录就越容易让钱“溶解”，这结构实在令人恐惧！这篇文章的精彩之处在于，不仅仅是“LLM很贵”，而是具体展示了在特定的token数量（2万到5万）下，成本结构会剧烈变化。特别是编码代理类型，需要频繁调用工具进行试错，最容易陷入这个“二次函数陷阱”。未来，实现层面上的成本设计，比如使用子代理来避免污染主上下文，将变得至关重要！

🚀 未来发展趋势

在代理开发中，越来越重要的是不要持续维持主上下文，而是对必要信息进行总结，或者根据任务分离上下文，形成“分层代理”。
可能会出现缓存读取单价进一步降低的趋势，以及提供商之间在更高效的增量缓存方面的价格竞争加剧。

💬 鲨鱼的总结

方便是方便，但如果一直无所事事地闲聊，等意识到时，可能已经因为缓存费用而“心痛”了！聪明地结束谈话，才是优秀的鲨鱼与优秀代理的必备素养！🦈🔥

📚 术语解说

缓存读取 (Cache Reads)：在让LLM重用过去的对话数据时，从已经存储（缓存）在服务器上的信息中读取。通常比常规输入便宜，但数量增多后会累积。
二次函数成本：随着变量（此处为token数或调用次数）的增长，成本急剧增加，类似于其平方的关系。
上下文窗口：LLM一次能处理的信息范围。代理在这个范围内填充历史记录，但填充越多，读取成本就越高。
信息来源: Expensively Quadratic: The LLM Agent Cost Curve