※この記事はアフィリエイト広告を含みます
Gemini-3时代的霸主!开源代理“Dirac”在基准测试中夺冠,成本大幅降低!
📰 新闻概述
- 开源编码代理“Dirac”在Terminal-Bench-2中获得65.2%的评分,荣获Gemini-3-flash-preview领域的冠军。
- 其性能超越谷歌官方的基准线(47.6%)以及顶尖的闭源代理“Junie CLI”(64.3%)。
- 通过独特的优化,平均降低API成本64.8%(效率提升约2.8倍),同时实现了更快速和精准的代码生成。
💡 关键要点
- 上下文的精简: 为了防止模型推理能力随着上下文长度的增加而下降,信息得到了紧凑的策划,从而兼顾了精度和成本。
- 先进的编辑技术: 利用哈希锚点的并行编辑和AST(抽象语法树)操作,将大规模代码修正整合为单一任务完成。
- 最小化的提示: 采用不使用MCP(模型上下文协议)的设计理念,以最小的指令实现最大的效果(性价比)。
🦈 鲨鱼的视角(策展人的观点)
在现有的AI代理纷纷向“尽量读取长上下文”的方向发展的同时,Dirac通过“精简信息”的方式成功挖掘了Gemini-3的真正潜力,真是太酷了!尤其是在基于Cline的同时,利用哈希锚点实现并行编辑,提高了改写的可靠性,这在实际应用中对于“稳定的AI修正”极为重要。它不仅没有盲目增加提示,而是将传统且强大的技术与最新的LLM结合,这种“工具的精细打磨”创造了卓越的性价比!
🚀 未来展望
- 随着API成本的剧烈降低,以前因成本问题被搁置的大型项目的自动重构将加速进行。
- 代理开发将以“信息质量(策划)”而非“信息数量”为竞争焦点。
💬 鲨鱼视角的一句话
便宜、快速、精准,简直就是海洋中的最快猎手,鲨鱼本色!工程师的最佳搭档就是它了!
📚 术语解释
-
Terminal-Bench-2: AI代理用于测量终端操作和实际GitHub仓库修改能力的高难度基准测试之一。
-
AST操作: 将代码处理为计算机易于理解的树形图(抽象语法树),在避免语法错误的同时准确地修改结构的技术。
-
哈希锚点: 用哈希值标记代码中的特定位置,以确保在并行工作中修正位置不发生偏移的技术。
-
信息来源: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview