3 min read
【AIマイナーニュース】

Claude Codeの性能劣化を毎日監視!Opus 4.5の「劣化」が統計的に判明


Claude CodeとOpus 4.5のSWEタスク性能を毎日追跡するトラッカー。直近30日で有意な性能低下が確認されました。

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] Claude Codeの性能劣化を毎日監視!Opus 4.5の「劣化」が統計的に判明

📰 ニュース概要

  • Claude Codeの性能追跡: Opus 4.5を用いたClaude Code CLIのパフォーマンスを、SWE-Bench-Proのサブセットで毎日自動計測するトラッカーが公開された。
  • 統計的な劣化検出: 統計的検定(p < 0.05)を用い、過去30日間でパフォーマンスに有意な低下があるかどうかを判定している。
  • 現状のスコア: 歴史的平均(ベースライン)の58%に対し、直近1日のパス率は50%、30日平均は54%と、劣化傾向が示されている。

💡 重要なポイント

  • 「生の性能」を可視化: カスタムツールなどを使わず、Claude Code CLIで直接ベンチマークを実行しているため、ユーザーが実際に体感する性能に近いデータが得られる。
  • 有意差の判定: 単なるスコアの上下だけでなく、統計的な信頼区間(95% CI)を設定し、誤差ではない「本当の劣化」をあぶり出している。

🦈 サメの眼(キュレーターの視点)

  • モデルのアップデートやシステム変更に伴う「サイレント劣化」を、第三者が統計的根拠を持って毎日監視し続けるというアプローチは極めてユニークだ。特に開発者にとって、信頼していたモデルの挙動が変わった際に「自分のコードのせいか、モデルのせいか」を判断する強力な材料になるため、この記事を選定したサメ!

🚀 これからどうなる?

  • AIモデルの性能が「ナマモノ」であることが広く認知され、各ベンダーに対する性能維持のプレッシャーが強まるだろう。同様のトラッカーが他の主要モデルやエージェントツールでも一般化していく可能性がある。

💬 はるサメ視点の一言

  • モデルもサメみたいに日によって絶好調だったり、お腹が空いて動きが鈍かったりするのか!?油断してると噛みつかれる(バグる)から、常に最新の数値をチェックしておくのが賢いサメのやり方だサメ!🦈🔥

  • 情報元: Claude Code daily benchmarks for degradation tracking

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈