3 min read
[AI 小众新闻]

揭开超速AI的真相!Anthropic的“批量削减”与OpenAI的“超级芯片”对决


比较Anthropic与OpenAI提供的超速模式的技术背景。Anthropic采用独占公交方式,而OpenAI则使用专用硬件运行不同模型的策略。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 揭开超速AI的真相!Anthropic的“批量削减”与OpenAI的“超级芯片”对决

📰 新闻概述

  • Anthropic的加速: 通过最小化推理时的批量大小,将现有的Opus 4.6模型直接加速约2.5倍(约170个token/秒)进行提供。
  • OpenAI的加速: 采用专用硬件“Cerebras”芯片,通过运行轻量化的不同模型(Spark),实现了超过15倍的加速(超1000个token/秒)。
  • 权衡: Anthropic的成本是OpenAI的6倍,但可以使用“真实”模型。OpenAI速度极快,但其轻量模型在工具调用等方面存在“特有的弱点”。

💡 重要要点

  • 推理的瓶颈在于内存带宽,通常通过将多个用户汇集进行“批处理”来提高效率,但Anthropic选择放弃这一做法,以优先考虑速度。
  • OpenAI使用的Cerebras芯片大小约为普通H100的70倍,配备44GB的SRAM。将模型完全装入内存中以实现超级速度。
  • 目前Cerebras芯片的内存(44GB)无法容纳像GPT-5.3-Codex这样的大型模型,因此OpenAI不得不提供轻量化的“Spark”模型。

🦈 鲨鱼的视角(策展人的观点)

别被“快”这个词迷惑了!Anthropic采取的是“奢侈使用真实模型”的大手笔策略,而OpenAI则用“专用硬件驱动另一种生物”的强硬手法。Cerebras芯片的44GB内存限制了OpenAI提供模型的可能性,这一观点非常犀利!是将模型“塞进”芯片,还是“等待”芯片空闲,这种思维的差异直接转化为用户体验的差异,真是有趣啊!

🚀 未来展望

针对特定硬件优化的“内存中可容纳的轻量模型”开发将进一步加速。同时,对于希望以超高速使用最高精度模型的高端用户,类似Anthropic的高价低批量的优质方案可能会逐渐普及。

💬 鲨鱼的简短感想

速度提升15倍非常吸引人,但变得愚蠢可就麻烦了。鲨鱼在快速游动时头脑也会变空,所以我对OpenAI的Spark模型感到亲切!鲨鲨!

📚 术语解析

  • 批处理: 一次性处理多个推理请求的技术。效率高,但会产生等待时间。

  • SRAM: 内置于芯片中的超高速内存。比普通GPU内存(HBM)快得多,但容量有限。

  • Cerebras(赛博拉斯): 采用将整张硅晶圆转化为一个巨大芯片的变态(赞美之词)方法的半导体制造商。

  • 信息来源: Two different tricks for fast LLM inference

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈