※この記事はアフィリエイト広告を含みます
代码“阅读与执行”的AI评审!Greptile发布创新代理『TREX』
发生了什么?新闻概述
- 执行型AI评审工具的诞生: Greptile推出了一款AI代理“TREX (测试、运行、执行)”,不仅能读取代码,还能实际执行代码并识别错误AI代理。
- 采用编排者结构: 主评审AI作为指挥中心,针对需要调查的问题并行启动专用的TREX子代理,从环境构建到测试都能自律地完成。
- 多模态证据生成: 测试结果不仅仅是文本,还包括视频、截图、执行日志、API追踪等“可验证的证据”。
为什么这很重要?关注要点
- 突破静态分析的局限: 能够自动发现程序执行中才会出现的“动态错误”,如逻辑错误、UI退化、竞争条件等。
- 提高上下文共享效率: 不再像传统代理那样独立运作,而是与评审AI共享上下文,避免重复计算资源的浪费,实现符合意图的测试。
- 对抗“幻觉”现象: 为了防止AI虚假声称“已测试”,系统提供视频和日志等具体的证据,让人类能够立即核实事实。
🦈 鲨鱼的视角(策展人的观点)
以往的AI评审还停留在“修改”的阶段,但TREX仿佛是一位“熟练的测试员”,直接在服务器上登录、按下按钮确认行为!特别让我惊艳的是,通过视频提供证据。即使人类不构建环境,也能通过“视频播放”直接确认动画变化和认证后的UI崩溃,这是革命性的!代理管理代理,传承上下文并并行执行的架构,极大地追求现场的“使用便利性”!
接下来会怎样?
仅仅“阅读并指出”的AI工具将被淘汰,像TREX这样的“执行并证明”风格将成为2026年的标准。开发者将从寻找错误的负担中解放出来,能够更专注于更高级的设计和创造性任务!
鲨鱼视角的一句话
“给我看证据!”开发者的心声得到了完美回应,TREX通过视频生动展示错误,简直是最强的伙伴!🦈🔥
术语解释
-
TREX (测试、运行、执行): Test, Run, Execute的缩写。Greptile开发的专注于执行代码进行验证的AI层。
-
编排者: 负责管理多个AI代理的角色,负责任务分配和上下文管理的指挥中心代理。
-
多模态成果物: 不仅包括文本,还有视频、图片、日志等多种格式构成的验证用成果物集。