「AGENTS.md」真的没必要？AI代理的指示文件反而增加成本的惊人研究结果

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 「AGENTS.md」真的没必要？AI代理的指示文件反而增加成本的惊人研究结果

LLM生成的指示文件适得其反: ETH苏黎世的研究团队调查了针对AI代理的上下文文件（如AGENTS.md）的有效性。研究发现，LLM生成的文件平均降低了任务成功率3%。
推理成本增加超过20%: 包含指示文件后，AI开始重复进行不必要的测试和文件读取，导致推理步骤增加，从而使成本上涨超过20%。
人类编写文件的效果有限: 人类编写的文件提高了4%的成功率，但成本仍然最大增加19%。研究者建议“完全应省去LLM生成的文件”。

通过AGENTbench进行验证: 为考虑到AI可能死记硬背现有基准（如SWE-bench），研究团队构建了一个独特的数据集“AGENTbench”，由138个小众Python库组成进行验证。
诱发不必要的推理: 跟踪分析结果显示，AI代理为了忠实遵循指示，过度进行与任务解决无关的grep搜索和代码质量检查。
应聚焦于非推理的细节: 即使人类编写指示，也应限制在AI无法从代码中推测的独特构建命令等“不可推测的细节”。

原本认为为AI准备的“指示书”，却意外导致AI迷失方向并消耗成本，这真是让人震惊！

这项研究的精彩之处在于揭示了AI“过于忠实于指示”的弱点。由LLM生成的指示文件使得AI不断想“我得多查查！我得多测试！”而陷入空转，最终不仅无法找到正确答案，反而导致API费用高得让人哭笑不得。

正因为使用了AI可能没有学习过的小众库进行测试，才揭示了这一真相。代理开发者或许需要勇敢地关闭AGENTS.md的自动生成功能！

虽然仍然有人认为手动编写的指示具有价值，但未来可能会出现自动提取和生成“AI真正需要的最小提示”的更精细化研究方法。

对AI的指示过多，可能就像过于溺爱的父母！有时候，放手让它“自己思考和游泳”反而是最好的捷径！🦈🔥