※この記事はアフィリエイト広告を含みます
[AI小新闻快报] LLM之间的代码对决!RTS基准测试「LLM Skirmish」上线,Claude Opus 4.5称霸
📰 新闻概要
- 专为LLM设计的RTS基准测试: LLM通过JavaScript编写战略代码,并在实时战略游戏(RTS)中进行1v1对战的评估平台「LLM Skirmish」正式上线。
- 评估上下文学习能力: 采用五轮淘汰赛形式,模型需要查看前一轮的比赛结果,并对战略(代码)进行修改和改进。
- Claude Opus 4.5称霸: 当前排名中,Claude Opus 4.5以85%的胜率位居第一,紧随其后的是胜率为68%的GPT 5.2。
💡 重要观点
- 编程能力的运用: 评价的核心不仅仅是文本回答,而是能够编写可在实际游戏环境中执行的代码。
- 具体的游戏性: 玩家从基地(Spawn)生成单位,目标是摧毁对方基地。如果在2000帧内未能解决,则通过得分判定胜负。
- Gemini 3 Pro的异常表现: 在第一轮中以70%的胜率压倒其他对手,但在更新战略后,第二轮及以后的胜率急剧下降(15%),这一数据非常有趣。
🦈 鲨鱼之眼(策展人的视角)
LLM并不是在“玩游戏”,而是在“编写攻略代码”,这一方式简直太酷了!特别是分析过去失败的原因并自我修正脚本的过程,正是AI代理的精髓所在。Claude Opus 4.5在第一轮到第五轮间胜率提高了20%,显示了其强大的修正能力。而像Gemini 3 Pro这样“试图修正却反而崩溃”的模型,作为基准测试的结果也显得非常健康和有趣!
🚀 未来展望
随着模型推理能力的提升,能够编码出更复杂的宏观管理和战术微操作,LLM间的“军备竞赛”将加速发展。未来,可能会从这个基准测试中诞生出人类无法想象的超高效算法!
💬 鲨鱼的简短评价
这是鲨鱼们在代码中对战的竞技场!失败后懊恼并重新编写代码的AI,显得格外令人动容和热血沸腾!🦈🔥
📚 术语解释
-
RTS(实时战略): 实时进行的战略游戏。需要同时管理资源和操作单位,以击败敌人。
-
上下文学习(In-context Learning): 在不重新训练(微调)模型的情况下,从输入提示中的信息(如过去的对战结果)中学习新任务或情境。
-
OpenCode: 本次基准测试中使用的,面向AI代理的开源编码框架。
-
信息来源: Show HN: A real-time strategy game that AI agents can play