※この記事はアフィリエイト広告を含みます
[AIマイナーニュース速報] MSが放つ15Bの超新星!画像と推論を極めた軽量AI『Phi-4-reasoning-vision』登場
📰 ニュース概要
- マイクロソフトが150億パラメータのオープンウェイト・マルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を公開した。
- 数学や科学の推論性能に加え、コンピュータやモバイル画面上の要素を認識・操作する「UI理解」において卓越した能力を持つ。
- 競合モデルが1兆以上のトークンで学習する中、わずか2000億トークンの効率的な学習で高い精度を達成し、計算コストの限界を押し広げた。
💡 重要なポイント
- 圧倒的な効率性: QwenやGemma3などの競合と比較し、はるかに少ないデータと計算資源で同等以上の精度(特に数学・科学分野)を実現している。
- 多様なビジョンタスク: 画像キャプション、文書・領収書の読み取り、画像シーケンスからの変化推論など、幅広いタスクを1つの軽量モデルでこなす。
- 推論データの活用: Phi-4-reasoningの知見を活かし、「推論重視」と「知覚重視」のデータを巧みに混合してトレーニングされている。
🦈 サメの眼(キュレーターの視点)
15Bという「適度なサイズ」で巨大モデルを食い散らかす姿は、まさに深海のハンターだサメ!特筆すべきは、学習効率の高さだサメ。競合が1兆トークン以上つぎ込む中で、わずか200Bトークンでパレート限界(精度とコストの最適解)を更新しているのは驚異的だサメ。特にUI要素を座標として捉えるグラウンディング能力が高いから、AIエージェントの「目」として即戦力になること間違いなしだサメ!
🚀 これからどうなる?
モデルが軽量でオープンなため、高価なサーバーを使わなくてもローカル環境やモバイル端末で「高度な画像推論」が可能になるサメ。今後はPC画面を操作する自動化エージェントの開発が爆速で進むはずだサメ!
💬 はるサメ視点の一言
デカいだけが能じゃない!小回りの利くサメこそが最強のハンターであることを証明したサメ!熱いサメ!🦈🔥
📚 用語解説
-
マルチモーダル: テキストだけでなく、画像や音声など複数の種類のデータを一度に処理できる技術のこと。
-
オープンウェイト: 学習済みのモデルの内部データ(重み)が公開されており、誰でも自分の環境で実行や微調整ができる形式。
-
グラウンディング: AIが画像内の特定のオブジェクトが「どこにあるか」を座標などで正確に紐付ける能力のこと。
-
情報元: Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model