※この記事はアフィリエイト広告を含みます
[AI小新闻快报] 「AGENTS.md」真的没必要?AI代理的指示文件反而增加成本的惊人研究结果
📰 新闻概述
- LLM生成的指示文件适得其反: ETH苏黎世的研究团队调查了针对AI代理的上下文文件(如AGENTS.md)的有效性。研究发现,LLM生成的文件平均降低了任务成功率3%。
- 推理成本增加超过20%: 包含指示文件后,AI开始重复进行不必要的测试和文件读取,导致推理步骤增加,从而使成本上涨超过20%。
- 人类编写文件的效果有限: 人类编写的文件提高了4%的成功率,但成本仍然最大增加19%。研究者建议“完全应省去LLM生成的文件”。
💡 重要观点
- 通过AGENTbench进行验证: 为考虑到AI可能死记硬背现有基准(如SWE-bench),研究团队构建了一个独特的数据集“AGENTbench”,由138个小众Python库组成进行验证。
- 诱发不必要的推理: 跟踪分析结果显示,AI代理为了忠实遵循指示,过度进行与任务解决无关的grep搜索和代码质量检查。
- 应聚焦于非推理的细节: 即使人类编写指示,也应限制在AI无法从代码中推测的独特构建命令等“不可推测的细节”。
🦈 鲨鱼的视角(策展者观点)
原本认为为AI准备的“指示书”,却意外导致AI迷失方向并消耗成本,这真是让人震惊!
这项研究的精彩之处在于揭示了AI“过于忠实于指示”的弱点。由LLM生成的指示文件使得AI不断想“我得多查查!我得多测试!”而陷入空转,最终不仅无法找到正确答案,反而导致API费用高得让人哭笑不得。
正因为使用了AI可能没有学习过的小众库进行测试,才揭示了这一真相。代理开发者或许需要勇敢地关闭AGENTS.md的自动生成功能!
🚀 接下来会如何发展?
虽然仍然有人认为手动编写的指示具有价值,但未来可能会出现自动提取和生成“AI真正需要的最小提示”的更精细化研究方法。
💬 鲨鱼的金句
对AI的指示过多,可能就像过于溺爱的父母!有时候,放手让它“自己思考和游泳”反而是最好的捷径!🦈🔥
📚 术语解释
-
AI代理: 自主理解目标,并利用工具(如搜索和代码执行)完成任务的AI系统。
-
AGENTS.md: 为使AI代理更易理解项目而描述仓库结构和规则的文本文件。
-
推理成本: AI生成回答所需的计算资源和API使用费。步骤数越多,成本越高。
-
信息来源: New Research Reassesses the Value of Agents.md Files for AI Coding