「AGENTS.md」は不要？AIエージェントの指示ファイルが逆にコストを増やすという衝撃の研究結果

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] 「AGENTS.md」は不要？AIエージェントの指示ファイルが逆にコストを増やすという衝撃の研究結果

LLM生成の指示ファイルは逆効果: ETHチューリッヒの研究チームが、AIエージェント向けのコンテキストファイル（AGENTS.md等）の有効性を調査。LLMが生成したファイルは、タスク成功率を平均3%低下させることが判明した。
推論コストが20%以上増大: 指示ファイルを含めることでAIが不要なテストやファイル読み込みを繰り返すようになり、推論ステップ数が増加。結果としてコストが20%以上跳ね上がる結果となった。
人間による執筆のみ限定的な効果: 人間が書いたファイルは成功率を4%向上させたが、それでもコストは最大19%増加。研究者は「LLM生成のファイルは完全に省くべき」と推奨している。

AGENTbenchによる検証: 既存のベンチマーク（SWE-bench等）をAIが丸暗記している可能性を考慮し、138件のニッチなPythonリポジトリからなる独自のデータセット「AGENTbench」を構築して検証した。
余計な推論の誘発: トレース分析の結果、AIエージェントは指示に忠実に従おうとするあまり、タスク解決に直接関係のないgrep検索やコード品質チェックを過剰に行っていることが分かった。
非推論的な詳細に絞るべき: 人間が指示を書く場合も、アーキテクチャの概要などAIがコードから推測できることではなく、独自のビルドコマンドなど「推測不可能な詳細」に限定すべきとしている。

良かれと思って用意した「AIへの指示書」が、実はAIを迷わせてコストを垂れ流させていたなんて衝撃だサメ！

この研究の凄さは、AIが「指示に忠実すぎる」という弱点を浮き彫りにしたことだサメ。LLMが作った指示ファイルだと、AIが「もっと調べなきゃ！もっとテストしなきゃ！」と空回りして、結局正解に辿り着けないばかりか、API代だけが高くつくという皮肉な結果になってるサメ。

既存の「SWE-bench」みたいな有名なベンチマークじゃなくて、AIが学習してなさそうなニッチなリポジトリで試したからこそ見えた真実だサメ。エージェント開発者は、とりあえずでAGENTS.mdを自動生成させる機能をOFFにする勇気が必要かもしれないサメ！

開発者による手書きの指示は依然として価値があるという意見もあるが、今後は「AIが本当に必要とする最小限のヒント」を自動で抽出・生成する、より洗練された手法の研究が進むと思われるサメ。

AIに指示を出しすぎるのは、過保護な親と同じかもしれないサメ！「あとは自分で考えて泳げ！」と突き放すのが、一番の近道になることもあるサメね！🦈🔥