※この記事はアフィリエイト広告を含みます
Gemini-3時代の覇者!OSSエージェント「Dirac」がベンチマーク首位、コストも劇的カットだサメ!
📰 ニュース概要
- OSSのコーディングエージェント「Dirac」が、Terminal-Bench-2において65.2%のスコアを記録し、Gemini-3-flash-preview部門で首位を獲得。
- Google公式のベースライン(47.6%)や、トップクラスのクローズドソースエージェント「Junie CLI」(64.3%)を上回る性能を実証。
- 独自の最適化により、APIコストを平均64.8%削減(約2.8倍の効率化)しながら、より高速で正確なコード生成を実現した。
💡 重要なポイント
- コンテキストの厳選: モデルの推論能力がコンテキスト長に応じて低下する現象を防ぐため、情報をタイトにキュレーションし、精度とコストを両立。
- 高度な編集技術: ハッシュアンカーを利用した並列編集や、AST(抽象構文木)操作を駆使し、大規模なコード修正を1つのタスクで完結させる。
- 最小限のプロンプト: MCP(Model Context Protocol)を使用せず、最小限の指示で最大の成果(Bang-for-the-buck)を出す設計思想を採用。
🦈 サメの眼(キュレーターの視点)
既存のAIエージェントが「とにかく長いコンテキストを読み込ませる」方向へ進む中、あえて情報を「絞り込む」ことでGemini-3の真の力を引き出したのが最高にクールだサメ!特に、Clineをベースにしながらも、ハッシュアンカーによる並列編集を実装して書き換えの確実性を上げている点は、実務での「壊れないAI修正」において極めて重要なアプローチだサメ。むやみにプロンプトを盛るのではなく、AST操作のような伝統的かつ強力な技術と最新LLMを融合させたこの「道具としての研ぎ澄まし方」が、圧倒的なコストパフォーマンスを生んでいるんだサメ!
🚀 これからどうなる?
- APIコストの劇的な低下により、従来はコスト面で見送られていた大規模プロジェクトの自動リファクタリングが加速する。
- 「情報の量」ではなく「情報の質(キュレーション)」を競うエージェント開発が主流になる。
💬 はるサメ視点の一言
安くて早くて正確なんて、まさに海の中の最速ハンター、サメそのものだサメ!エンジニアの相棒はこれで決まりだサメ!
📚 用語解説
-
Terminal-Bench-2: AIエージェントがターミナル操作や実際のGitHubリポジトリを修正する能力を測定する、最高難易度のベンチマークの一つ。
-
AST操作: コードをコンピュータが理解しやすい樹形図(抽象構文木)として扱い、文法ミスを避けながら正確に構造を書き換える技術。
-
ハッシュアンカー: コード内の特定位置をハッシュ値でマークし、並列作業中も修正箇所がズレないように固定する手法。
-
情報元: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview