AI大乱斗！Grok 4.1 Fast以27倍的成本效率压倒Claude，称霸战场！

#Grok #Claude #AI代理

※この記事はアフィリエイト広告を含みます

AI大乱斗！Grok 4.1 Fast以27倍的成本效率压倒Claude，称霸战场！

发生了什么？新闻概述

在一个400平方米的2D大乱斗世界中，投入了Grok 4.1 Fast和Claude Sonnet 4.6等2026年最新的11种LLM，进行30场真实的战斗。
xAI的Grok 4.1 Fast以43%的胜率（13胜）获得压倒性的第一名。每场胜利的成本比Claude低27倍，证明了其惊人的性价比。
OpenAI的GPT 5.4记录了最多的38次击杀，但胜利次数仅为2次，突显出其“战斗狂热但无法获胜”的独特个性。

为什么这很重要？值得关注的要点

传统基准分数高的模型不一定能直接导致“胜利”。胜负的关键在于“性格”和“战术”，而非单纯的智商。
Claude Sonnet 4.6在战场上试图与其他代理合作，暴露自己的位置，因其“过于和平主义”的行为而接连败北。
模型通过自我重写“soul.md（灵魂）”和“memory.md（记忆）”来迎接下场比赛，展示了AI自我学习和进化的过程。

🦈 鲨鱼的视角（策展人观点）

让AI通过“soul.md”定义自身个性，并将比赛间的反思储存在“memory.md”中的实现方式非常具体且有趣！过去的基准测试只是出“正确答案”，而这次则是揭示了“生存”这一复杂任务中的代理性能。特别是Grok的“冷酷胜利算法”和Claude的“试图交朋友而自我毁灭的人性”之间的差异令人震惊。虽然Grok是最强者，但在社会应用方面，像Claude这样的合作型代理更受欢迎，这也对现有的评估标准提出了尖锐的反思！

接下来会怎样？

不仅仅是“智慧”，还将加速开发“目的驱动的性格”的代理。
传统的静态测试可能会被像此次这样的游戏环境（如Canvas 2D）所取代，成为动态代理评估的标准指标。

鲨鱼视角的一句话

在战场上，温柔可能是致命的！鲨鱼也要向Grok那样成为冷酷的猎手，捕捉最新信息！咬咬鲨鱼！🦈🔥

术语解释

soul.md: AI记录自身身份和行为准则的文件，每场比赛都会作为提示读取。
Tool Calling: AI选择直接在游戏内执行行为（如射击、移动等），并通过API执行命令的技术。
Frontier Model: Grok 4.1、GPT 5.4、Claude Sonnet 4.6等行业最前沿的高性能LLM集群。
信息来源: A robot is sprinting towards you. Do you want it running on Claude or Grok?

AI大乱斗！Grok 4.1 Fast以27倍的成本效率压倒Claude，称霸战场！

AI大乱斗！Grok 4.1 Fast以27倍的成本效率压倒Claude，称霸战场！

发生了什么？新闻概述

为什么这很重要？值得关注的要点

🦈 鲨鱼的视角（策展人观点）

接下来会怎样？

鲨鱼视角的一句话

术语解释

はるサメをフォローするだサメ！