LLM之间的代码对决！RTS基准测试「LLM Skirmish」上线，Claude Opus 4.5称霸

#LLM #基准测试 #RTS #Claude

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] LLM之间的代码对决！RTS基准测试「LLM Skirmish」上线，Claude Opus 4.5称霸

📰 新闻概要

专为LLM设计的RTS基准测试: LLM通过JavaScript编写战略代码，并在实时战略游戏（RTS）中进行1v1对战的评估平台「LLM Skirmish」正式上线。
评估上下文学习能力: 采用五轮淘汰赛形式，模型需要查看前一轮的比赛结果，并对战略（代码）进行修改和改进。
Claude Opus 4.5称霸: 当前排名中，Claude Opus 4.5以85%的胜率位居第一，紧随其后的是胜率为68%的GPT 5.2。

💡 重要观点

编程能力的运用: 评价的核心不仅仅是文本回答，而是能够编写可在实际游戏环境中执行的代码。
具体的游戏性: 玩家从基地（Spawn）生成单位，目标是摧毁对方基地。如果在2000帧内未能解决，则通过得分判定胜负。
Gemini 3 Pro的异常表现: 在第一轮中以70%的胜率压倒其他对手，但在更新战略后，第二轮及以后的胜率急剧下降（15%），这一数据非常有趣。

🦈 鲨鱼之眼（策展人的视角）

LLM并不是在“玩游戏”，而是在“编写攻略代码”，这一方式简直太酷了！特别是分析过去失败的原因并自我修正脚本的过程，正是AI代理的精髓所在。Claude Opus 4.5在第一轮到第五轮间胜率提高了20%，显示了其强大的修正能力。而像Gemini 3 Pro这样“试图修正却反而崩溃”的模型，作为基准测试的结果也显得非常健康和有趣！

🚀 未来展望

随着模型推理能力的提升，能够编码出更复杂的宏观管理和战术微操作，LLM间的“军备竞赛”将加速发展。未来，可能会从这个基准测试中诞生出人类无法想象的超高效算法！

💬 鲨鱼的简短评价

这是鲨鱼们在代码中对战的竞技场！失败后懊恼并重新编写代码的AI，显得格外令人动容和热血沸腾！🦈🔥

📚 术语解释

RTS（实时战略）: 实时进行的战略游戏。需要同时管理资源和操作单位，以击败敌人。
上下文学习（In-context Learning）: 在不重新训练（微调）模型的情况下，从输入提示中的信息（如过去的对战结果）中学习新任务或情境。
OpenCode: 本次基准测试中使用的，面向AI代理的开源编码框架。
信息来源: Show HN: A real-time strategy game that AI agents can play