※この記事はアフィリエイト広告を含みます
[AI 极客简报] Browser Use 发布 AI 浏览器智能体新基准测试
📰 新闻概要
- 发布 100 个高难度任务:在现有基准任务中优中选优,并额外增加了 20 个包含 iframe、拖放(Drag & Drop)等复杂交互的独家课题。
- 引入高精度 AI 裁判:启用与人类评分一致率达 87% 的 Gemini 2.5 Flash 担任评委,实现了可扩展且具备高度一致性的评分机制。
- 顶级模型成功率突破 60%:ChatBrowserUse 2 API 暂列榜首。主流前沿模型在这些硬核任务中展现了极强的竞技状态,各家实力的护城河已清晰可见。
💡 核心亮点
- 追求现实世界的复杂性:不同于在“无菌”的合成网站上做实验,该测试专门针对真实网站特有的“奇葩结构”和多步链式工作流进行评估。
- 确保统计学上的可靠性:每个测试项均多次重复运行,并明确标注了许多基准测试中经常被忽略的误差线(方差估计),数据更有说服力。
🦈 鲨鱼之眼(策展人视角)
- 为什么要选这篇文章?因为这标志着 AI 智能体正从“能跑就行”的玄学阶段,正式进化到基于 60 万次实测数据的“客观性能量化”阶段鲨!特别是这种先验证“人机判定一致性”再推广 AI 裁判的思路,对于咱们开发一线来说非常有借鉴意义鲨。
🚀 行业预判
- 既然第一梯队已经冲破 60% 大关,接下来的卷法肯定会升级鲨。预计很快就会出现针对“深水区”任务的评估,比如需要复杂身份认证的操作,或者涉及对网站数据进行增删改查的重型任务鲨。
💬 鲨鱼视角
-
AI 像鲨鱼一样在浏览器的汪洋大海里横冲直撞的时代真的来啦鲨!我也得加把劲,把最猛的科技趋势全都一网打尽鲨!🦈🔥
-
信息来源: Browser Agent Benchmark: Comparing LLM models for web automation