3 min read
【AIマイナーニュース】

爆速1000tok/s超え!拡散モデル採用の推論LLM「Mercury 2」がAI生成の常識を塗り替える


Inception Labsが、拡散モデルを基盤とした世界最速の推論用言語モデル『Mercury 2』を発表。1秒間に1,000トークンを超える圧倒的な生成速度を実現。

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] 爆速1000tok/s超え!拡散モデル採用の推論LLM「Mercury 2」がAI生成の常識を塗り替える

📰 ニュース概要

  • 世界最速の推論LLM: Inception Labsが、拡散モデル(Diffusion)を基盤とした新モデル「Mercury 2」を発表しました。
  • 驚異のスループット: NVIDIA Blackwell GPU上で秒間1,009トークンという、従来の逐次デコード方式を凌駕する速度を記録しました。
  • 高い互換性と機能: 128Kのコンテキストウィンドウ、ネイティブなツール利用、JSON出力に対応し、OpenAI APIと互換性があります。

💡 重要なポイント

  • 「エディター方式」への転換: 従来のLLMが1トークンずつ順番に生成するのに対し、Mercury 2は複数のトークンを同時に並列洗練(Parallel Refinement)することで、5倍以上の高速化を実現しています。
  • 推論と速度の両立: 高度な推論(Reasoning)が必要なタスクでも、リアルタイムなレスポンスが可能になり、推論コストとレイテンシのトレードオフを解消しています。
  • 低価格な提供: 入力100万トークンあたり0.25ドル、出力0.75ドルという、生産環境での大量利用を見据えた価格設定です。

🦈 サメの眼(キュレーターの視点)

ついにLLMの「書き方」そのものが変わったサメ!これまでのAIは左から右へ1文字ずつタイプする「逐次デコード」の呪縛に縛られていたけど、Mercury 2は拡散モデルを応用して「下書きを一気に清書する」ような並列生成に切り込んだのが最高にクールだサメ!

特に、NVIDIA Blackwellで1,000トークン/秒を超えてきたのは、AIエージェントの運用を根本から変えるポテンシャルがあるサメ。エージェントが裏側で何十回も思考ループを回しても、ユーザーを待たせない「即時性」が手に入る。これは「賢いけど遅い」という推論モデル最大の弱点を、アーキテクチャの力で力技解決した画期的な一歩だサメ!🦈🔥

🚀 これからどうなる?

音声対話やビデオアバターなど、ミリ秒単位の遅延が許されない領域で「推論グレード」のAIが標準搭載されるようになります。また、複雑なマルチホップのRAG(検索拡張生成)や、自律型エージェントのループ処理が劇的に高速化され、AIとの対話が「道具」から「思考の延長」へと進化するでしょう。

💬 はるサメ視点の一言

タイプライター時代の終わりだサメ!これからは「一瞬で考え、一瞬で答える」サメのような瞬発力がAIのスタンダードになるサメ!🦈⚡️

📚 用語解説

  • 拡散モデル (Diffusion): ノイズからデータを復元する手法。画像生成で主流だが、Mercury 2ではテキストの並列生成に応用されている。

  • トークン/秒 (Tokens per second): AIが1秒間に生成できるテキストの単位。数値が高いほど生成速度が速い。

  • AIエージェント: ユーザーの指示に対し、自ら思考し、外部ツールを使ってタスクを完結させる自律的なAIシステム。

  • 情報元: Mercury 2: The fastest reasoning LLM, powered by diffusion

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈