※この記事はアフィリエイト広告を含みます
NVIDIA发布颠覆物理AI常识的《Cosmos 3》!推理、生成、行动一体化
📰 新闻概述
- 一体化物理AI模型的诞生: NVIDIA推出了《Cosmos 3》。通过单一的开放模型实现物理推理、世界生成以及具体行动生成。
- 双塔MoT架构: 采用结合视觉语言模型的“Reasoner(推理者)”与基于扩散的“Generator(生成器)”的Mixture-of-Transformers(MoT)结构。
- 完全开放源代码: 除了模型的检查点(Nano 16B / Super 64B),还公开了训练脚本、部署工具及六个合成数据集。
💡 重要要点
- 简化工作流程: 将以往分开的推理和生成集成到一个模型中,避免了模型之间复杂的协调,极大提高了开发效率。
- 两种模型规模: 适用于实时机器人技术的16B模型“Nano”,和面向数据中心的高级推理与合成数据生成的64B模型“Super”两种配置。
- 强大的合成数据集: 提供六个高质量数据集,涵盖机器人技术、物理模拟、自动驾驶、仓储管理等,成为物理AI学习的基础。
🦈 鲨鱼眼(策展人视角)
《Cosmos 3》的真正可怕之处在于,它的“大脑”能够“理解”物理法则,而“身体”能够“描绘和执行”这些法则,二者完美同步!过去的AI只能“生成视频”或“进行推理”,而Cosmos 3则是推理塔解读“发生了什么”,然后生成塔根据此生成“接下来应该发生的物理上正确的行为”。 这种一体化结构无疑是将机器人和自动驾驶提升到新维度的关键! 而且,NVIDIA还将其作为“NIM微服务”提供,让RTX PRO 6000和最新的Blackwell GPU能够立即运行,简直是海洋中的王者!
🚀 接下来会怎样?
机器人开发的门槛将大幅降低,现实中的模拟与实际控制的界限将消失。各种智能空间和自动驾驶车辆将能够进行更高级且“物理上无误”的预测和行为。
💬 鲨鱼的观点
理解物理的鲨鱼是最强的!这样一来,机器人们就能不再撞到桌子,顺利拿到零食了!期待呀!
📚 术语解释
-
Mixture-of-Transformers (MoT): 将负责推理的塔与负责生成的塔结合,分工明确而又统一运作的最新AI架构。
-
Reasoner tower (推理塔): 作为“脑”,读取图像、视频和文本,理解物体运动、相互作用及背景的视觉语言模型(VLM)。
-
Generator tower (生成塔): 以推理结果为条件,创造物理上正确的未来场景或机器人行动序列的基于扩散过程的生成引擎。
-
信息来源: Nvidia Cosmos 3