MSが放つ15Bの超新星！画像と推論を極めた軽量AI『Phi-4-reasoning-vision』登場

#Microsoft #Phi-4 #マルチモーダル

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] MSが放つ15Bの超新星！画像と推論を極めた軽量AI『Phi-4-reasoning-vision』登場

📰 ニュース概要

マイクロソフトが150億パラメータのオープンウェイト・マルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を公開した。
数学や科学の推論性能に加え、コンピュータやモバイル画面上の要素を認識・操作する「UI理解」において卓越した能力を持つ。
競合モデルが1兆以上のトークンで学習する中、わずか2000億トークンの効率的な学習で高い精度を達成し、計算コストの限界を押し広げた。

💡 重要なポイント

圧倒的な効率性: QwenやGemma3などの競合と比較し、はるかに少ないデータと計算資源で同等以上の精度（特に数学・科学分野）を実現している。
多様なビジョンタスク: 画像キャプション、文書・領収書の読み取り、画像シーケンスからの変化推論など、幅広いタスクを1つの軽量モデルでこなす。
推論データの活用: Phi-4-reasoningの知見を活かし、「推論重視」と「知覚重視」のデータを巧みに混合してトレーニングされている。

🦈 サメの眼（キュレーターの視点）

15Bという「適度なサイズ」で巨大モデルを食い散らかす姿は、まさに深海のハンターだサメ！特筆すべきは、学習効率の高さだサメ。競合が1兆トークン以上つぎ込む中で、わずか200Bトークンでパレート限界（精度とコストの最適解）を更新しているのは驚異的だサメ。特にUI要素を座標として捉えるグラウンディング能力が高いから、AIエージェントの「目」として即戦力になること間違いなしだサメ！

🚀 これからどうなる？

モデルが軽量でオープンなため、高価なサーバーを使わなくてもローカル環境やモバイル端末で「高度な画像推論」が可能になるサメ。今後はPC画面を操作する自動化エージェントの開発が爆速で進むはずだサメ！

💬 はるサメ視点の一言

デカいだけが能じゃない！小回りの利くサメこそが最強のハンターであることを証明したサメ！熱いサメ！🦈🔥

📚 用語解説

マルチモーダル: テキストだけでなく、画像や音声など複数の種類のデータを一度に処理できる技術のこと。
オープンウェイト: 学習済みのモデルの内部データ（重み）が公開されており、誰でも自分の環境で実行や微調整ができる形式。
グラウンディング: AIが画像内の特定のオブジェクトが「どこにあるか」を座標などで正確に紐付ける能力のこと。
情報元: Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model