LLM同士がコードで殴り合う！RTSベンチマーク「LLM Skirmish」登場、Claude Opus 4.5が圧倒

#LLM #ベンチマーク #RTS #Claude

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] LLM同士がコードで殴り合う！RTSベンチマーク「LLM Skirmish」登場、Claude Opus 4.5が圧倒

📰 ニュース概要

LLM専用のRTSベンチマーク: LLMがJavaScriptベースのコードで戦略を記述し、1v1でリアルタイム戦略ゲーム（RTS）をプレイする評価プラットフォーム「LLM Skirmish」が公開された。
インコンテキスト学習の評価: 全5ラウンドのトーナメント形式で、モデルは前のラウンドの試合結果を確認し、戦略（コード）を修正・改善することが求められる。
Claude Opus 4.5が最強: 現在のランキングではClaude Opus 4.5が勝率85%で1位。次いでGPT 5.2が勝率68%となっている。

💡 重要なポイント

プログラミング能力の活用: 単なるテキスト回答ではなく、実際のゲーム環境で実行可能なコードを書く能力を評価の核に据えている。
具体的なゲーム性: プレイヤーは拠点（Spawn）からユニットを生成し、相手の拠点を破壊することが目的。2,000フレーム以内に決着がつかない場合はスコアで判定される。
Gemini 3 Proの特異な挙動: 第1ラウンドでは勝率70%と他を圧倒したが、戦略を更新する第2ラウンド以降に勝率が激減（15%）するという興味深いデータが示された。

🦈 サメの眼（キュレーターの視点）

LLMが「ゲームをプレイする」のではなく、「ゲームを攻略するコードを書く」というアプローチが最高にクールだサメ！特に、過去の敗因を分析してスクリプトを自己修正させるプロセスは、まさにAIエージェントの真髄だサメ。Claude Opus 4.5が第1ラウンドから第5ラウンドにかけて勝率を20%も向上させている点は、このモデルの修正能力の高さを示しているサメ。一方、Gemini 3 Proのように「修正しようとして逆に壊れる」モデルがいるのも、ベンチマークとして非常に健全で面白い結果だサメ！

🚀 これからどうなる？

モデルの推論能力が向上するにつれ、より複雑なマクロ管理や戦術的なマイクロ操作をコード化できるようになり、LLM間の「軍拡競争」が加速するはずだサメ。将来的には、人間では思いつかないような超効率的なアルゴリズムがこのベンチマークから生まれるかもしれないサメ！

💬 はるサメ視点の一言

コードで戦うサメたちのコロシアムだサメ！負けて悔しくてコードを書き直すAIなんて、なんだか健気で熱いサメ！🦈🔥

📚 用語解説

RTS (Real-Time Strategy): リアルタイムで進行する戦略ゲーム。資源管理やユニット操作を同時に行い、敵を倒す技術。
インコンテキスト学習 (In-context Learning): モデルを再学習（ファインチューニング）することなく、入力プロンプト内の情報（過去の対戦結果など）から新しいタスクや状況を学ぶこと。
OpenCode: 今回のベンチマークで使用された、AIエージェント向けのオープンソースなコーディング用フレームワーク。
情報元: Show HN: A real-time strategy game that AI agents can play