3 min read
[AI 小众新闻]

LLM之间的代码对决!RTS基准测试「LLM Skirmish」上线,Claude Opus 4.5称霸


LLM通过编写实时战略游戏的代码进行1v1对战的基准测试上线。Claude Opus 4.5位居榜首。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] LLM之间的代码对决!RTS基准测试「LLM Skirmish」上线,Claude Opus 4.5称霸

📰 新闻概要

  • 专为LLM设计的RTS基准测试: LLM通过JavaScript编写战略代码,并在实时战略游戏(RTS)中进行1v1对战的评估平台「LLM Skirmish」正式上线。
  • 评估上下文学习能力: 采用五轮淘汰赛形式,模型需要查看前一轮的比赛结果,并对战略(代码)进行修改和改进。
  • Claude Opus 4.5称霸: 当前排名中,Claude Opus 4.5以85%的胜率位居第一,紧随其后的是胜率为68%的GPT 5.2。

💡 重要观点

  • 编程能力的运用: 评价的核心不仅仅是文本回答,而是能够编写可在实际游戏环境中执行的代码。
  • 具体的游戏性: 玩家从基地(Spawn)生成单位,目标是摧毁对方基地。如果在2000帧内未能解决,则通过得分判定胜负。
  • Gemini 3 Pro的异常表现: 在第一轮中以70%的胜率压倒其他对手,但在更新战略后,第二轮及以后的胜率急剧下降(15%),这一数据非常有趣。

🦈 鲨鱼之眼(策展人的视角)

LLM并不是在“玩游戏”,而是在“编写攻略代码”,这一方式简直太酷了!特别是分析过去失败的原因并自我修正脚本的过程,正是AI代理的精髓所在。Claude Opus 4.5在第一轮到第五轮间胜率提高了20%,显示了其强大的修正能力。而像Gemini 3 Pro这样“试图修正却反而崩溃”的模型,作为基准测试的结果也显得非常健康和有趣!

🚀 未来展望

随着模型推理能力的提升,能够编码出更复杂的宏观管理和战术微操作,LLM间的“军备竞赛”将加速发展。未来,可能会从这个基准测试中诞生出人类无法想象的超高效算法!

💬 鲨鱼的简短评价

这是鲨鱼们在代码中对战的竞技场!失败后懊恼并重新编写代码的AI,显得格外令人动容和热血沸腾!🦈🔥

📚 术语解释

  • RTS(实时战略): 实时进行的战略游戏。需要同时管理资源和操作单位,以击败敌人。

  • 上下文学习(In-context Learning): 在不重新训练(微调)模型的情况下,从输入提示中的信息(如过去的对战结果)中学习新任务或情境。

  • OpenCode: 本次基准测试中使用的,面向AI代理的开源编码框架。

  • 信息来源: Show HN: A real-time strategy game that AI agents can play

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈