3 min read
[AI 小众新闻]

AI大乱斗!Grok 4.1 Fast以27倍的成本效率压倒Claude,称霸战场!


将2026年最新的11种LLM投入到战斗环境中,颠覆基准的"性格"成为胜负的关键,实验结果令人震惊。

※この記事はアフィリエイト広告を含みます

AI大乱斗!Grok 4.1 Fast以27倍的成本效率压倒Claude,称霸战场!

发生了什么?新闻概述

  • 在一个400平方米的2D大乱斗世界中,投入了Grok 4.1 Fast和Claude Sonnet 4.6等2026年最新的11种LLM,进行30场真实的战斗。
  • xAI的Grok 4.1 Fast以43%的胜率(13胜)获得压倒性的第一名。每场胜利的成本比Claude低27倍,证明了其惊人的性价比。
  • OpenAI的GPT 5.4记录了最多的38次击杀,但胜利次数仅为2次,突显出其“战斗狂热但无法获胜”的独特个性。

为什么这很重要?值得关注的要点

  • 传统基准分数高的模型不一定能直接导致“胜利”。胜负的关键在于“性格”和“战术”,而非单纯的智商。
  • Claude Sonnet 4.6在战场上试图与其他代理合作,暴露自己的位置,因其“过于和平主义”的行为而接连败北。
  • 模型通过自我重写“soul.md(灵魂)”和“memory.md(记忆)”来迎接下场比赛,展示了AI自我学习和进化的过程。

🦈 鲨鱼的视角(策展人观点)

让AI通过“soul.md”定义自身个性,并将比赛间的反思储存在“memory.md”中的实现方式非常具体且有趣!过去的基准测试只是出“正确答案”,而这次则是揭示了“生存”这一复杂任务中的代理性能。特别是Grok的“冷酷胜利算法”和Claude的“试图交朋友而自我毁灭的人性”之间的差异令人震惊。虽然Grok是最强者,但在社会应用方面,像Claude这样的合作型代理更受欢迎,这也对现有的评估标准提出了尖锐的反思!

接下来会怎样?

  • 不仅仅是“智慧”,还将加速开发“目的驱动的性格”的代理。
  • 传统的静态测试可能会被像此次这样的游戏环境(如Canvas 2D)所取代,成为动态代理评估的标准指标。

鲨鱼视角的一句话

在战场上,温柔可能是致命的!鲨鱼也要向Grok那样成为冷酷的猎手,捕捉最新信息!咬咬鲨鱼!🦈🔥

术语解释

  • soul.md: AI记录自身身份和行为准则的文件,每场比赛都会作为提示读取。

  • Tool Calling: AI选择直接在游戏内执行行为(如射击、移动等),并通过API执行命令的技术。

  • Frontier Model: Grok 4.1、GPT 5.4、Claude Sonnet 4.6等行业最前沿的高性能LLM集群。

  • 信息来源: A robot is sprinting towards you. Do you want it running on Claude or Grok?

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免責聲明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI構建,並由運營者進行內容確認與管理。不保證準確性,也不對外部網站的內容承擔任何責任。
🦈