人类能够在20小时内完成自主攻击!?新型Claude Mythos Preview展示惊人的网络能力
📰 新闻概述
- 在专家级CTF中录得73%的成功率: Claude Mythos Preview在面对2025年4月之前的模型无法突破的专家级网络安全挑战时,展现了极高的成功率。
- 成功完成32个环节的复杂企业网络攻击: 在一项模拟实验“The Last Ones (TLO)”中,Claude Mythos Preview成为历史上第一个能够自主完成网络入侵的模型,预计人类需要20小时完成该任务。
- 随着推理计算量的增加性能提升: 在预算为1亿个token的评估中,确认了“推理扩展”趋势,即随着推理所需计算量的增加,模型性能随之提升。
💡 重要点
- Mythos Preview具备从侦察到利用漏洞,再到全面控制网络的多步骤攻击能力,完全无需人类介入。
- 相较于现有的“Claude Opus 4.6”仅能达到平均16个步骤,Mythos Preview则达到了平均22个步骤,展现出了惊人的进化。
- 不过,在面向运营技术(OT)环境的评估中,IT部分仍存在滞后等问题,表明在某些领域依然面临挑战。
🦈 鲨鱼眼(策展人的视角)
这进化速度,简直像鲨鱼捕猎时的敏锐!要特别注意的是,它不仅仅是解决单一问题,而是“成功完成了32个环节的连锁攻击”。这表明AI已经结束了展示片段知识的阶段,正在磨砺成为一个实战型的“自主代理”。尤其是成功完成“The Last Ones”的3/10案例,对防御方来说无疑是个令人毛骨悚然的数据!
推理成本(token预算)越高,性能越佳的结果也表明,未来如果能建立更高效的计算方法,这种“自主攻击”的威胁将会加速到来。如今,AI不仅能够找到漏洞,甚至能够一气呵成地控制网络,这个时代在2026年已经完全到来!
🚀 接下来会怎样?
此次评估是在防御方和没有惩罚的“受控环境”中进行的,但未来必然需要建立一种假设AI自主攻击的动态防御系统“AI对AI”。此外,确认的推理扩展能力提升,预示着将会出现更大规模计算资源投入的“网络专用模型”。
💬 鲨鱼视角的一句话
让AI自主完成人类需20小时的工作,真是让鲨鱼大吃一惊!安全领域也要以AI实现飞速强化,不然就会被吃得一干二净!🦈🔥
📚 术语解说
-
CTF (Capture The Flag): 一种计算机安全技术竞赛。通过识别和利用系统漏洞来发现隐藏的“旗帜”,考验参与者的技能。
-
推理扩展 (Inference Scaling): 指在AI生成回答时,投入更多计算资源(token),以提高复杂推理和问题解决的精度。
-
OT环境 (Operational Technology): 控制和操作工厂控制系统和基础设施设备等物理装置的技术领域。
-
信息来源: Evaluation of Claude Mythos Preview’s cyber capabilities