超高速1000tok/s！基于扩散模型的推理LLM「Mercury 2」颠覆AI生成常识

全球最快的推理LLM: Inception Labs发布了基于扩散模型的新模型「Mercury 2」。
惊人的吞吐量: 在NVIDIA Blackwell GPU上记录了每秒1,009个令牌的速度，超越了传统的逐步解码方式。
高兼容性与功能: 支持128K的上下文窗口、原生工具使用和JSON输出，兼容OpenAI API。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 超高速1000tok/s！基于扩散模型的推理LLM「Mercury 2」颠覆AI生成常识

转向「编辑模式」: 传统LLM是一个一个令牌生成，而Mercury 2通过并行精炼（Parallel Refinement）同时生成多个令牌，实现了5倍以上的速度提升。
推理与速度的完美结合: 在需要高水平推理的任务中也能实现实时响应，解决了推理成本与延迟之间的权衡问题。
低成本提供: 每百万个输入令牌收费0.25美元，输出0.75美元，旨在支持生产环境的广泛使用。

终于，LLM的「写作方式」发生了变化！过去的AI受限于逐步解码的束缚，但Mercury 2应用了扩散模型，突破性地实现了「一次性清稿」的并行生成，真是太酷了！

特别是在NVIDIA Blackwell上超过每秒1000个令牌的表现，具有根本改变AI代理运作的潜力。即使代理在后台进行多次思考循环，也不会让用户久等，实现了「即时性」。这是用架构的力量解决了推理模型最大的弱点「聪明但慢」的革命性一步！🦈🔥

在语音对话和视频化身等不允许毫秒级延迟的领域，「推理级」的AI将成为标配。此外，复杂的多跳RAG（检索增强生成）和自主代理的循环处理将显著加速，与AI的对话将从「工具」向「思维的延伸」进化。

打字机时代结束了！接下来将是「瞬间思考、瞬间回答」的鲨鱼般反应力成为AI的标准！🦈⚡️