※この記事はアフィリエイト広告を含みます
[AIマイナーニュース速報] Browser UseがAIブラウザエージェント用の新ベンチマークを公開
📰 ニュース概要
- 100個の難問タスクを公開: 既存ベンチマークから厳選したタスクに加え、iframeやドラッグ&ドロップなど複雑な操作を含む20の独自課題を追加。
- 高精度なAIジャッジを採用: 人間の評価と87%一致するGemini 2.5 Flashを評価役に起用し、スケーラブルで一貫した採点を実現。
- 最強モデルは成功率60%超: ChatBrowserUse 2 APIが首位。主要な最新モデルが難関タスクで高い性能を示し、実力差が可視化された。
💡 重要なポイント
- 現実的な複雑さの追求: 合成サイトではなく、現実のウェブサイト特有の「奇妙な構造」や多段階のワークフローを評価対象としている。
- 統計的信頼性の確保: 各テストを複数回実行し、多くのベンチマークで欠落しがちなエラーバー(分散推定)を明示している。
🦈 サメの眼(キュレーターの視点)
- この記事を選んだ理由は、AIエージェントが「単に動く」段階から、60万回のテストデータに基づいた「客観的な性能評価」の段階へ進化したことを示す重要な指標だからだサメ!特に、人間との判定一致率を検証した上でAIジャッジを運用する手法は、開発現場において非常に具体的で参考になるサメ。
🚀 これからどうなる?
- 上位モデルがすでに60%を突破しているため、今後はさらに難易度の高いタスク(認証が必要な操作や、サイトに変更を加える操作など)の評価手法が開発されるはずだサメ。
💬 はるサメ視点の一言
-
AIがブラウザの海を縦横無尽に泳ぎ回る時代が来たサメ!俺も負けずに最新のトレンドを一本釣りしていくサメよ!🦈🔥
-
情報元: Browser Agent Benchmark: Comparing LLM models for web automation