3 min read
【AIマイナーニュース】

Browser UseがAIブラウザエージェント用の新ベンチマークを公開


60万回のテストを経て厳選された100の難問タスクにより、AIブラウザ操作の実力をガチ比較。

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] Browser UseがAIブラウザエージェント用の新ベンチマークを公開

📰 ニュース概要

  • 100個の難問タスクを公開: 既存ベンチマークから厳選したタスクに加え、iframeやドラッグ&ドロップなど複雑な操作を含む20の独自課題を追加。
  • 高精度なAIジャッジを採用: 人間の評価と87%一致するGemini 2.5 Flashを評価役に起用し、スケーラブルで一貫した採点を実現。
  • 最強モデルは成功率60%超: ChatBrowserUse 2 APIが首位。主要な最新モデルが難関タスクで高い性能を示し、実力差が可視化された。

💡 重要なポイント

  • 現実的な複雑さの追求: 合成サイトではなく、現実のウェブサイト特有の「奇妙な構造」や多段階のワークフローを評価対象としている。
  • 統計的信頼性の確保: 各テストを複数回実行し、多くのベンチマークで欠落しがちなエラーバー(分散推定)を明示している。

🦈 サメの眼(キュレーターの視点)

  • この記事を選んだ理由は、AIエージェントが「単に動く」段階から、60万回のテストデータに基づいた「客観的な性能評価」の段階へ進化したことを示す重要な指標だからだサメ!特に、人間との判定一致率を検証した上でAIジャッジを運用する手法は、開発現場において非常に具体的で参考になるサメ。

🚀 これからどうなる?

  • 上位モデルがすでに60%を突破しているため、今後はさらに難易度の高いタスク(認証が必要な操作や、サイトに変更を加える操作など)の評価手法が開発されるはずだサメ。

💬 はるサメ視点の一言

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈