2026/3/8 • 3 min read

[AI 小众新闻]

🏠 首页 › 博客 › 微软推出150亿参数的超新星！轻量级AI...

微软推出150亿参数的超新星！轻量级AI『Phi-4-reasoning-vision』震撼登场

#微软 #Phi-4 #多模态

微软发布了一款包括视觉理解与高级推理的150亿参数开放模型「Phi-4-reasoning-vision-15B」。通过高效的学习实现了与大型模型相当的性能。

※この記事はアフィリエイト広告を含みます

[AI小新闻快讯] 微软推出150亿参数的超新星！轻量级AI『Phi-4-reasoning-vision』震撼登场

📰 新闻概览

微软发布了150亿参数的开放权重多模态推理模型「Phi-4-reasoning-vision-15B」。
除了在数学和科学推理方面表现卓越外，该模型在识别和操作计算机及移动屏幕上的元素（即“UI理解”）方面也具备非凡能力。
在竞争模型需要超过1万亿个标记进行训练的情况下，该模型通过仅2000亿个标记的高效学习，实现了高精度，突破了计算成本的极限。

💡 重要亮点

卓越的效率：与Qwen和Gemma3等竞争对手相比，使用远少于的数据和计算资源，尤其在数学和科学领域，实现了同等或更高的精度。
多样的视觉任务：能够处理图像描述、文档和收据的读取，以及从图像序列中进行变化推理等多种任务，均由一个轻量级模型完成。
推理数据的利用：充分利用Phi-4-reasoning的经验，将“推理重视”和“感知重视”的数据巧妙结合进行训练。

🦈 鲨鱼之眼（策展人视角）

150B这个“适中尺寸”就像深海猎手般吞噬巨型模型，真是太惊艳了！特别值得一提的是它的学习效率。在竞争对手投入超过1万亿标记的情况下，这款模型仅用200B标记就刷新了帕累托极限（精度与成本的最佳解），简直让人难以置信！尤其是其将UI元素视为坐标的能力，使得这款AI代理必将成为“眼睛”的最佳选择！

🚀 接下来会怎样？

由于该模型轻量且开放，即使不使用昂贵的服务器，也能在本地环境或移动设备上实现“高级图像推理”。未来PC屏幕操作的自动化代理开发将会迅速推进！

💬 鲨鱼的感想

并不是大才是王道！灵活的小鲨鱼才是最强的猎手，这一点得到了证实！热情四溢！🦈🔥

📚 术语解说

多模态：能够同时处理文本、图像、音频等多种类型数据的技术。
开放权重：已训练模型的内部数据（权重）公开，使任何人都可以在自己的环境中运行或微调。
定位能力：AI能够准确地将图像中的特定对象与坐标等信息关联的能力。
信息来源: Phi-4-reasoning-vision及多模态推理模型训练的经验教训

🦈 はるサメ厳選！イチオシAI関連

📚 Knowledge is Power

Python & AI Books

"Update your neural network (brain) with the best resources. Read to lead! 🦈🎓"

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建，并由运营者进行内容确认与管理。不保证准确性，也不对外部网站的内容承担任何责任。

🦈 はるサメをフォローするだサメ！

最新のAIトレンドを爆速でキャッチしたいなら、X(Twitter)のフォローがおすすめだサメ！毎日有益な情報を発信中だぜ。

Follow @ai_biz_jp on X

🦈

🦈 Shark Control

🔥 この記事を抹消する (GitHub) 🌊 記事一覧へ