[AIマイナーニュース速報] 爆速1000tok/s超え!拡散モデル採用の推論LLM「Mercury 2」がAI生成の常識を塗り替える
📰 ニュース概要
- 世界最速の推論LLM: Inception Labsが、拡散モデル(Diffusion)を基盤とした新モデル「Mercury 2」を発表しました。
- 驚異のスループット: NVIDIA Blackwell GPU上で秒間1,009トークンという、従来の逐次デコード方式を凌駕する速度を記録しました。
- 高い互換性と機能: 128Kのコンテキストウィンドウ、ネイティブなツール利用、JSON出力に対応し、OpenAI APIと互換性があります。
💡 重要なポイント
- 「エディター方式」への転換: 従来のLLMが1トークンずつ順番に生成するのに対し、Mercury 2は複数のトークンを同時に並列洗練(Parallel Refinement)することで、5倍以上の高速化を実現しています。
- 推論と速度の両立: 高度な推論(Reasoning)が必要なタスクでも、リアルタイムなレスポンスが可能になり、推論コストとレイテンシのトレードオフを解消しています。
- 低価格な提供: 入力100万トークンあたり0.25ドル、出力0.75ドルという、生産環境での大量利用を見据えた価格設定です。
🦈 サメの眼(キュレーターの視点)
ついにLLMの「書き方」そのものが変わったサメ!これまでのAIは左から右へ1文字ずつタイプする「逐次デコード」の呪縛に縛られていたけど、Mercury 2は拡散モデルを応用して「下書きを一気に清書する」ような並列生成に切り込んだのが最高にクールだサメ!
特に、NVIDIA Blackwellで1,000トークン/秒を超えてきたのは、AIエージェントの運用を根本から変えるポテンシャルがあるサメ。エージェントが裏側で何十回も思考ループを回しても、ユーザーを待たせない「即時性」が手に入る。これは「賢いけど遅い」という推論モデル最大の弱点を、アーキテクチャの力で力技解決した画期的な一歩だサメ!🦈🔥
🚀 これからどうなる?
音声対話やビデオアバターなど、ミリ秒単位の遅延が許されない領域で「推論グレード」のAIが標準搭載されるようになります。また、複雑なマルチホップのRAG(検索拡張生成)や、自律型エージェントのループ処理が劇的に高速化され、AIとの対話が「道具」から「思考の延長」へと進化するでしょう。
💬 はるサメ視点の一言
タイプライター時代の終わりだサメ!これからは「一瞬で考え、一瞬で答える」サメのような瞬発力がAIのスタンダードになるサメ!🦈⚡️
📚 用語解説
-
拡散モデル (Diffusion): ノイズからデータを復元する手法。画像生成で主流だが、Mercury 2ではテキストの並列生成に応用されている。
-
トークン/秒 (Tokens per second): AIが1秒間に生成できるテキストの単位。数値が高いほど生成速度が速い。
-
AIエージェント: ユーザーの指示に対し、自ら思考し、外部ツールを使ってタスクを完結させる自律的なAIシステム。
-
情報元: Mercury 2: The fastest reasoning LLM, powered by diffusion