3 min read
[AI 小众新闻]

超高速1000tok/s!基于扩散模型的推理LLM「Mercury 2」颠覆AI生成常识


Inception Labs发布了基于扩散模型的全球最快推理语言模型「Mercury 2」,实现了每秒超过1000个令牌的惊人生成速度。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 超高速1000tok/s!基于扩散模型的推理LLM「Mercury 2」颠覆AI生成常识

📰 新闻概览

  • 全球最快的推理LLM: Inception Labs发布了基于扩散模型的新模型「Mercury 2」。
  • 惊人的吞吐量: 在NVIDIA Blackwell GPU上记录了每秒1,009个令牌的速度,超越了传统的逐步解码方式。
  • 高兼容性与功能: 支持128K的上下文窗口、原生工具使用和JSON输出,兼容OpenAI API。

💡 重要要点

  • 转向「编辑模式」: 传统LLM是一个一个令牌生成,而Mercury 2通过并行精炼(Parallel Refinement)同时生成多个令牌,实现了5倍以上的速度提升。
  • 推理与速度的完美结合: 在需要高水平推理的任务中也能实现实时响应,解决了推理成本与延迟之间的权衡问题。
  • 低成本提供: 每百万个输入令牌收费0.25美元,输出0.75美元,旨在支持生产环境的广泛使用。

🦈 鲨鱼之眼(策展人的视角)

终于,LLM的「写作方式」发生了变化!过去的AI受限于逐步解码的束缚,但Mercury 2应用了扩散模型,突破性地实现了「一次性清稿」的并行生成,真是太酷了!

特别是在NVIDIA Blackwell上超过每秒1000个令牌的表现,具有根本改变AI代理运作的潜力。即使代理在后台进行多次思考循环,也不会让用户久等,实现了「即时性」。这是用架构的力量解决了推理模型最大的弱点「聪明但慢」的革命性一步!🦈🔥

🚀 接下来会怎样?

在语音对话和视频化身等不允许毫秒级延迟的领域,「推理级」的AI将成为标配。此外,复杂的多跳RAG(检索增强生成)和自主代理的循环处理将显著加速,与AI的对话将从「工具」向「思维的延伸」进化。

💬 鲨鱼视角的一句话

打字机时代结束了!接下来将是「瞬间思考、瞬间回答」的鲨鱼般反应力成为AI的标准!🦈⚡️

📚 术语解说

  • 扩散模型 (Diffusion): 一种从噪声中恢复数据的方法。虽然在图像生成中已成为主流,但在Mercury 2中被应用于文本的并行生成。

  • 令牌/秒 (Tokens per second): AI每秒生成的文本单位,数值越高,生成速度越快。

  • AI代理: 一种自主AI系统,能够根据用户指令进行思考,并利用外部工具完成任务。

  • 信息来源: Mercury 2: The fastest reasoning LLM, powered by diffusion

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈