※この記事はアフィリエイト広告を含みます
[AI小新闻快报] 揭开超速AI的真相!Anthropic的“批量削减”与OpenAI的“超级芯片”对决
📰 新闻概述
- Anthropic的加速: 通过最小化推理时的批量大小,将现有的Opus 4.6模型直接加速约2.5倍(约170个token/秒)进行提供。
- OpenAI的加速: 采用专用硬件“Cerebras”芯片,通过运行轻量化的不同模型(Spark),实现了超过15倍的加速(超1000个token/秒)。
- 权衡: Anthropic的成本是OpenAI的6倍,但可以使用“真实”模型。OpenAI速度极快,但其轻量模型在工具调用等方面存在“特有的弱点”。
💡 重要要点
- 推理的瓶颈在于内存带宽,通常通过将多个用户汇集进行“批处理”来提高效率,但Anthropic选择放弃这一做法,以优先考虑速度。
- OpenAI使用的Cerebras芯片大小约为普通H100的70倍,配备44GB的SRAM。将模型完全装入内存中以实现超级速度。
- 目前Cerebras芯片的内存(44GB)无法容纳像GPT-5.3-Codex这样的大型模型,因此OpenAI不得不提供轻量化的“Spark”模型。
🦈 鲨鱼的视角(策展人的观点)
别被“快”这个词迷惑了!Anthropic采取的是“奢侈使用真实模型”的大手笔策略,而OpenAI则用“专用硬件驱动另一种生物”的强硬手法。Cerebras芯片的44GB内存限制了OpenAI提供模型的可能性,这一观点非常犀利!是将模型“塞进”芯片,还是“等待”芯片空闲,这种思维的差异直接转化为用户体验的差异,真是有趣啊!
🚀 未来展望
针对特定硬件优化的“内存中可容纳的轻量模型”开发将进一步加速。同时,对于希望以超高速使用最高精度模型的高端用户,类似Anthropic的高价低批量的优质方案可能会逐渐普及。
💬 鲨鱼的简短感想
速度提升15倍非常吸引人,但变得愚蠢可就麻烦了。鲨鱼在快速游动时头脑也会变空,所以我对OpenAI的Spark模型感到亲切!鲨鲨!
📚 术语解析
-
批处理: 一次性处理多个推理请求的技术。效率高,但会产生等待时间。
-
SRAM: 内置于芯片中的超高速内存。比普通GPU内存(HBM)快得多,但容量有限。
-
Cerebras(赛博拉斯): 采用将整张硅晶圆转化为一个巨大芯片的变态(赞美之词)方法的半导体制造商。