※この記事はアフィリエイト広告を含みます
[AI小新闻快报] 超高速1000tok/s!基于扩散模型的推理LLM「Mercury 2」颠覆AI生成常识
📰 新闻概览
- 全球最快的推理LLM: Inception Labs发布了基于扩散模型的新模型「Mercury 2」。
- 惊人的吞吐量: 在NVIDIA Blackwell GPU上记录了每秒1,009个令牌的速度,超越了传统的逐步解码方式。
- 高兼容性与功能: 支持128K的上下文窗口、原生工具使用和JSON输出,兼容OpenAI API。
💡 重要要点
- 转向「编辑模式」: 传统LLM是一个一个令牌生成,而Mercury 2通过并行精炼(Parallel Refinement)同时生成多个令牌,实现了5倍以上的速度提升。
- 推理与速度的完美结合: 在需要高水平推理的任务中也能实现实时响应,解决了推理成本与延迟之间的权衡问题。
- 低成本提供: 每百万个输入令牌收费0.25美元,输出0.75美元,旨在支持生产环境的广泛使用。
🦈 鲨鱼之眼(策展人的视角)
终于,LLM的「写作方式」发生了变化!过去的AI受限于逐步解码的束缚,但Mercury 2应用了扩散模型,突破性地实现了「一次性清稿」的并行生成,真是太酷了!
特别是在NVIDIA Blackwell上超过每秒1000个令牌的表现,具有根本改变AI代理运作的潜力。即使代理在后台进行多次思考循环,也不会让用户久等,实现了「即时性」。这是用架构的力量解决了推理模型最大的弱点「聪明但慢」的革命性一步!🦈🔥
🚀 接下来会怎样?
在语音对话和视频化身等不允许毫秒级延迟的领域,「推理级」的AI将成为标配。此外,复杂的多跳RAG(检索增强生成)和自主代理的循环处理将显著加速,与AI的对话将从「工具」向「思维的延伸」进化。
💬 鲨鱼视角的一句话
打字机时代结束了!接下来将是「瞬间思考、瞬间回答」的鲨鱼般反应力成为AI的标准!🦈⚡️
📚 术语解说
-
扩散模型 (Diffusion): 一种从噪声中恢复数据的方法。虽然在图像生成中已成为主流,但在Mercury 2中被应用于文本的并行生成。
-
令牌/秒 (Tokens per second): AI每秒生成的文本单位,数值越高,生成速度越快。
-
AI代理: 一种自主AI系统,能够根据用户指令进行思考,并利用外部工具完成任务。
-
信息来源: Mercury 2: The fastest reasoning LLM, powered by diffusion