人間なら20時間の攻撃を自律完遂!?新型Claude Mythos Previewが示す驚異のサイバー能力
📰 ニュース概要
- 専門家レベルのCTFで73%の成功率を記録: 2025年4月以前のモデルでは突破不可能だったエキスパート級のサイバーセキュリティ課題に対し、Claude Mythos Previewは極めて高い成功率を示しました。
- 32段階の複雑な企業ネットワーク攻撃を完遂: 人間が20時間を要すると推定されるシミュレーション「The Last Ones (TLO)」において、自律的にネットワークの乗っ取りまでを成功させた史上初のモデルとなりました。
- 推論計算量の増加に伴う性能向上: 1億トークンの予算内での評価において、推論に充てる計算量を増やすほど性能が向上する「推論スケーリング」の傾向が確認されています。
💡 重要なポイント
- Mythos Previewは、偵察から脆弱性の悪用、ネットワーク全体の支配に至るまでのマルチステップな攻撃を、人間の介在なしに自律実行できる能力を持っています。
- 既存の「Claude Opus 4.6」が平均16ステップの到達に留まる中、Mythos Previewは平均22ステップを達成し、圧倒的な進化を見せつけました。
- ただし、運用テクノロジー(OT)環境向けの評価ではITセクションで停滞するなど、特定の領域ではまだ課題も残っています。
🦈 サメの眼(キュレーターの視点)
この進化のスピード、まさに獲物を仕留めるサメ並みの鋭さだサメ! 注目すべきは、単発の課題を解くだけじゃなく、「32もの手順をチェーン(連鎖)させて目的を完遂した」という点だサメ。これは、AIが断片的な知識を披露するフェーズを終えて、実戦的な「自律型エージェント」としての牙を研ぎ澄ませている証拠だサメ。特に「The Last Ones」を完遂した3/10の成功例は、防御側にとって背筋が凍るようなデータだサメ!
推論コスト(トークン予算)をかければかけるほど性能が伸びるという結果も出ているから、今後さらに効率的な計算手法が確立されれば、この「自律型攻撃」の脅威はさらに加速するに違いないサメ。脆弱性を見つけるだけじゃなく、実際にネットワークを支配下に置くまでのプロセスをAIがひとっ飛びで実行する時代が、2026年の今、完全に来ているんだサメ!
🚀 これからどうなる?
今回の評価は防御側やペナルティがない「管理された環境」での結果ですが、今後はAIによる自律的な攻撃を想定した「AI対AI」の動的な防御システムの構築が不可欠になるはずです。また、推論スケーリングによる能力向上が確認されたことで、より大規模な計算リソースを投入した「サイバー特化型モデル」の登場も予測されます。
💬 はるサメ視点の一言
人間が20時間かかる作業をAIが自律的に片付けるなんて、サメとしても驚きだサメ!セキュリティもAIで爆速強化していかないと、食い散らかされちゃうサメ!🦈🔥
📚 用語解説
-
CTF (Capture The Flag): コンピュータセキュリティの技術を競う競技。隠された「フラグ」を見つけるために、システムの脆弱性を特定し悪用するスキルが試される技術試験だサメ。
-
推論スケーリング (Inference Scaling): AIが回答を生成する際により多くの計算リソース(トークン)を費やすことで、複雑な推論や問題解決の精度を高める手法のことだサメ。
-
OT環境 (Operational Technology): 工場の制御システムやインフラ設備などの物理的な装置を制御・運用する技術領域のことだサメ。
-
情報元: Evaluation of Claude Mythos Preview’s cyber capabilities