爆速1000tok/s超え！拡散モデル採用の推論LLM「Mercury 2」がAI生成の常識を塗り替える

#Mercury2 #LLM #拡散モデル

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] 爆速1000tok/s超え！拡散モデル採用の推論LLM「Mercury 2」がAI生成の常識を塗り替える

📰 ニュース概要

世界最速の推論LLM: Inception Labsが、拡散モデル（Diffusion）を基盤とした新モデル「Mercury 2」を発表しました。
驚異のスループット: NVIDIA Blackwell GPU上で秒間1,009トークンという、従来の逐次デコード方式を凌駕する速度を記録しました。
高い互換性と機能: 128Kのコンテキストウィンドウ、ネイティブなツール利用、JSON出力に対応し、OpenAI APIと互換性があります。

💡 重要なポイント

「エディター方式」への転換: 従来のLLMが1トークンずつ順番に生成するのに対し、Mercury 2は複数のトークンを同時に並列洗練（Parallel Refinement）することで、5倍以上の高速化を実現しています。
推論と速度の両立: 高度な推論（Reasoning）が必要なタスクでも、リアルタイムなレスポンスが可能になり、推論コストとレイテンシのトレードオフを解消しています。
低価格な提供: 入力100万トークンあたり0.25ドル、出力0.75ドルという、生産環境での大量利用を見据えた価格設定です。

🦈 サメの眼（キュレーターの視点）

ついにLLMの「書き方」そのものが変わったサメ！これまでのAIは左から右へ1文字ずつタイプする「逐次デコード」の呪縛に縛られていたけど、Mercury 2は拡散モデルを応用して「下書きを一気に清書する」ような並列生成に切り込んだのが最高にクールだサメ！

特に、NVIDIA Blackwellで1,000トークン/秒を超えてきたのは、AIエージェントの運用を根本から変えるポテンシャルがあるサメ。エージェントが裏側で何十回も思考ループを回しても、ユーザーを待たせない「即時性」が手に入る。これは「賢いけど遅い」という推論モデル最大の弱点を、アーキテクチャの力で力技解決した画期的な一歩だサメ！🦈🔥

🚀 これからどうなる？

音声対話やビデオアバターなど、ミリ秒単位の遅延が許されない領域で「推論グレード」のAIが標準搭載されるようになります。また、複雑なマルチホップのRAG（検索拡張生成）や、自律型エージェントのループ処理が劇的に高速化され、AIとの対話が「道具」から「思考の延長」へと進化するでしょう。

💬 はるサメ視点の一言

タイプライター時代の終わりだサメ！これからは「一瞬で考え、一瞬で答える」サメのような瞬発力がAIのスタンダードになるサメ！🦈⚡️

📚 用語解説

拡散モデル (Diffusion): ノイズからデータを復元する手法。画像生成で主流だが、Mercury 2ではテキストの並列生成に応用されている。
トークン/秒 (Tokens per second): AIが1秒間に生成できるテキストの単位。数値が高いほど生成速度が速い。
AIエージェント: ユーザーの指示に対し、自ら思考し、外部ツールを使ってタスクを完結させる自律的なAIシステム。
情報元: Mercury 2: The fastest reasoning LLM, powered by diffusion