3 min read
[AI 小众新闻]

Gemini-3时代的霸主!开源代理“Dirac”在基准测试中夺冠,成本大幅降低!


  • 开源编码代理“Dirac”在Terminal-Bench-2中获得65.2%的评分,荣获Gemini-3-flash-preview领域的冠军。...
※この記事はアフィリエイト広告を含みます

Gemini-3时代的霸主!开源代理“Dirac”在基准测试中夺冠,成本大幅降低!

📰 新闻概述

  • 开源编码代理“Dirac”在Terminal-Bench-2中获得65.2%的评分,荣获Gemini-3-flash-preview领域的冠军。
  • 其性能超越谷歌官方的基准线(47.6%)以及顶尖的闭源代理“Junie CLI”(64.3%)。
  • 通过独特的优化,平均降低API成本64.8%(效率提升约2.8倍),同时实现了更快速和精准的代码生成。

💡 关键要点

  • 上下文的精简: 为了防止模型推理能力随着上下文长度的增加而下降,信息得到了紧凑的策划,从而兼顾了精度和成本。
  • 先进的编辑技术: 利用哈希锚点的并行编辑和AST(抽象语法树)操作,将大规模代码修正整合为单一任务完成。
  • 最小化的提示: 采用不使用MCP(模型上下文协议)的设计理念,以最小的指令实现最大的效果(性价比)。

🦈 鲨鱼的视角(策展人的观点)

在现有的AI代理纷纷向“尽量读取长上下文”的方向发展的同时,Dirac通过“精简信息”的方式成功挖掘了Gemini-3的真正潜力,真是太酷了!尤其是在基于Cline的同时,利用哈希锚点实现并行编辑,提高了改写的可靠性,这在实际应用中对于“稳定的AI修正”极为重要。它不仅没有盲目增加提示,而是将传统且强大的技术与最新的LLM结合,这种“工具的精细打磨”创造了卓越的性价比!

🚀 未来展望

  • 随着API成本的剧烈降低,以前因成本问题被搁置的大型项目的自动重构将加速进行。
  • 代理开发将以“信息质量(策划)”而非“信息数量”为竞争焦点。

💬 鲨鱼视角的一句话

便宜、快速、精准,简直就是海洋中的最快猎手,鲨鱼本色!工程师的最佳搭档就是它了!

📚 术语解释

  • Terminal-Bench-2: AI代理用于测量终端操作和实际GitHub仓库修改能力的高难度基准测试之一。

  • AST操作: 将代码处理为计算机易于理解的树形图(抽象语法树),在避免语法错误的同时准确地修改结构的技术。

  • 哈希锚点: 用哈希值标记代码中的特定位置,以确保在并行工作中修正位置不发生偏移的技术。

  • 信息来源: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈