NVIDIA、物理AIの常識を覆す『Cosmos 3』発表!推論・生成・行動を1つのモデルで統合
📰 ニュース概要
- 統合型物理AIモデルの誕生: NVIDIAが「Cosmos 3」をリリース。物理的な推論、世界のシミュレーション生成、そして具体的な行動生成を単一のオープンモデルで実現した。
- 2タワーのMoTアーキテクチャ: 視覚言語モデルの「Reasoner(推論)」と、拡散ベースの「Generator(生成)」を組み合わせたMixture-of-Transformers(MoT)構造を採用。
- 完全オープンソース化: モデルのチェックポイント(Nano 16B / Super 64B)に加え、訓練スクリプト、デプロイツール、そして6つの合成データセットを一般公開。
💡 重要なポイント
- ワークフローの簡素化: 従来は別々のモデルで行っていた推論と生成を統合。モデル間の複雑なオーケストレーションが不要になり、開発パイプラインが劇的に効率化される。
- 2つのモデルサイズ: リアルタイムロボティクス向けの16Bモデル「Nano」と、データセンターでの高度な推論・合成データ生成向けの64Bモデル「Super」の2段階構成。
- 強力な合成データセット: ロボティクス、物理シミュレーション、自動運転、倉庫管理など、物理AIの学習に欠かせない6つの高品質データセットが提供される。
🦈 サメの眼(キュレーターの視点)
この「Cosmos 3」の真の恐ろしさは、物理法則を「理解」する脳と、それを「描写・実行」する体が完全にシンクロしている点だサメ! これまでのAIは「動画を作るだけ」や「推論するだけ」でバラバラだったが、Cosmos 3はReasonerタワーが『何が起きているか』を解釈し、それに基づいてGeneratorタワーが『次に起こるべき物理的に正しい挙動』を生成する。 この一気通貫の構造こそが、ロボットや自動運転を次の次元へ引き上げる鍵になるサメ! しかも、これを「NIMマイクロサービス」として提供し、RTX PRO 6000や最新のBlackwell GPUで即座に動かせるようにするNVIDIAの隙のなさは、まさに海の王者だサメ!
🚀 これからどうなる?
ロボット開発のハードルが爆下がりし、現実に即したシミュレーションと実機制御の境界線が消滅する。あらゆるスマートスペースや自動走行車が、より高度で「物理的に破綻のない」予測と行動をとるようになるだろうサメ。
💬 はるサメ視点の一言
物理を理解するサメは最強だサメ!これでロボットたちも、机にぶつからずにカルパスを持ってこれるようになるサメ!?楽しみだサメ!
📚 用語解説
-
Mixture-of-Transformers (MoT): 推論を担当するタワーと生成を担当するタワーを組み合わせ、役割を分担しながら統合的に機能させる最新のAIアーキテクチャ。
-
Reasoner tower (推論タワー): 画像や動画、テキストを読み取り、物体の動きや相互作用、文脈を理解する「脳」の役割を果たす視覚言語モデル(VLM)。
-
Generator tower (生成タワー): 推論結果を条件として、物理的に正しい未来の映像やロボットの行動シーケンスを作り出す、拡散プロセスベースの生成エンジン。
-
情報元: Nvidia Cosmos 3