3 min read
[AI 小众新闻]

Browser Use 发布 AI 浏览器智能体新基准测试:实战演练 100 场


历经 60 万次测试精选出的 100 个硬核任务,深度评测 AI 浏览器操作的真实战力。

※この記事はアフィリエイト広告を含みます

[AI 极客简报] Browser Use 发布 AI 浏览器智能体新基准测试

📰 新闻概要

  • 发布 100 个高难度任务:在现有基准任务中优中选优,并额外增加了 20 个包含 iframe、拖放(Drag & Drop)等复杂交互的独家课题。
  • 引入高精度 AI 裁判:启用与人类评分一致率达 87% 的 Gemini 2.5 Flash 担任评委,实现了可扩展且具备高度一致性的评分机制。
  • 顶级模型成功率突破 60%:ChatBrowserUse 2 API 暂列榜首。主流前沿模型在这些硬核任务中展现了极强的竞技状态,各家实力的护城河已清晰可见。

💡 核心亮点

  • 追求现实世界的复杂性:不同于在“无菌”的合成网站上做实验,该测试专门针对真实网站特有的“奇葩结构”和多步链式工作流进行评估。
  • 确保统计学上的可靠性:每个测试项均多次重复运行,并明确标注了许多基准测试中经常被忽略的误差线(方差估计),数据更有说服力。

🦈 鲨鱼之眼(策展人视角)

  • 为什么要选这篇文章?因为这标志着 AI 智能体正从“能跑就行”的玄学阶段,正式进化到基于 60 万次实测数据的“客观性能量化”阶段鲨!特别是这种先验证“人机判定一致性”再推广 AI 裁判的思路,对于咱们开发一线来说非常有借鉴意义鲨。

🚀 行业预判

  • 既然第一梯队已经冲破 60% 大关,接下来的卷法肯定会升级鲨。预计很快就会出现针对“深水区”任务的评估,比如需要复杂身份认证的操作,或者涉及对网站数据进行增删改查的重型任务鲨。

💬 鲨鱼视角

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈