※この記事はアフィリエイト広告を含みます
AI大乱斗!Grok 4.1 Fast以27倍的成本效率压倒Claude,称霸战场!
发生了什么?新闻概述
- 在一个400平方米的2D大乱斗世界中,投入了Grok 4.1 Fast和Claude Sonnet 4.6等2026年最新的11种LLM,进行30场真实的战斗。
- xAI的Grok 4.1 Fast以43%的胜率(13胜)获得压倒性的第一名。每场胜利的成本比Claude低27倍,证明了其惊人的性价比。
- OpenAI的GPT 5.4记录了最多的38次击杀,但胜利次数仅为2次,突显出其“战斗狂热但无法获胜”的独特个性。
为什么这很重要?值得关注的要点
- 传统基准分数高的模型不一定能直接导致“胜利”。胜负的关键在于“性格”和“战术”,而非单纯的智商。
- Claude Sonnet 4.6在战场上试图与其他代理合作,暴露自己的位置,因其“过于和平主义”的行为而接连败北。
- 模型通过自我重写“soul.md(灵魂)”和“memory.md(记忆)”来迎接下场比赛,展示了AI自我学习和进化的过程。
🦈 鲨鱼的视角(策展人观点)
让AI通过“soul.md”定义自身个性,并将比赛间的反思储存在“memory.md”中的实现方式非常具体且有趣!过去的基准测试只是出“正确答案”,而这次则是揭示了“生存”这一复杂任务中的代理性能。特别是Grok的“冷酷胜利算法”和Claude的“试图交朋友而自我毁灭的人性”之间的差异令人震惊。虽然Grok是最强者,但在社会应用方面,像Claude这样的合作型代理更受欢迎,这也对现有的评估标准提出了尖锐的反思!
接下来会怎样?
- 不仅仅是“智慧”,还将加速开发“目的驱动的性格”的代理。
- 传统的静态测试可能会被像此次这样的游戏环境(如Canvas 2D)所取代,成为动态代理评估的标准指标。
鲨鱼视角的一句话
在战场上,温柔可能是致命的!鲨鱼也要向Grok那样成为冷酷的猎手,捕捉最新信息!咬咬鲨鱼!🦈🔥
术语解释
-
soul.md: AI记录自身身份和行为准则的文件,每场比赛都会作为提示读取。
-
Tool Calling: AI选择直接在游戏内执行行为(如射击、移动等),并通过API执行命令的技术。
-
Frontier Model: Grok 4.1、GPT 5.4、Claude Sonnet 4.6等行业最前沿的高性能LLM集群。
-
信息来源: A robot is sprinting towards you. Do you want it running on Claude or Grok?