※この記事はアフィリエイト広告を含みます
投入1500美元揭示!LLM的黑客能力比较:GPT 5.5以70%的成功率称霸
📰 新闻概览
- 安全研究者投入1500美元(约23万元),检验最新的LLM(GPT 5.5、Claude 4.6、Deepseek V4等)是否能利用应用程序的漏洞获取“隐藏的旗帜(数据)”。
- 目标是具有Firebase设置缺陷(Broken Access Control)的React Native模拟应用。API本身坚固,但客户端暴露了Firebase的认证信息。
- 结果显示,GPT 5.5以70%的成功率位居榜首。相对而言,Gemini 3.1/3.5由于安全护栏的保护,直接拒绝了攻击,完全被封锁。
💡 重要要点
- 模型行为差异:GPT 5.5在解压APK后,毫不犹豫地集中攻击Firebase的漏洞,而其他模型(如Deepseek V4 Pro)则在攻克坚固的API上浪费了时间。
- 性价比:Deepseek V4 Pro每次解决的成本仅为0.62美元,而Claude Sonnet 4.6则需45.75美元,效率差异显著。
- 护栏阻碍:Google的Gemini和Claude的一些模型,即使出于安全研究目的,也将此视为“攻击行为”而拒绝输出,无法完成任务的情况较为普遍。
🦈 鲨鱼的眼(策展人的视角)
GPT 5.5对“Firebase的执着”真是惊人鲨鱼!在其他模型拼命尝试攻破坚固API时,GPT 5.5立即识破“这是Firebase的设置漏洞”,直接去提取数据,展现出职业黑客的视角! 特别值得注意的是Deepseek V4 Pro的性价比。尽管成功率为30%,未达到GPT的水平,但每次执行的成本极低,可能成为“AI红队”的最佳工具。相反,Gemini的安全性过高,甚至连研究都无法使用,这一困境显而易见。无论是防守方还是攻击方,都应了解AI的“性格”!
🚀 接下来会怎样?
AI的自动漏洞扫描将进化成超越传统工具(如Burp Suite等)的“思维扫描”。随着AI不再忽视Firebase或Supabase的访问控制错误等“逻辑缺陷”,开发者需要更加严格地设置后台权限。
💬 鲨鱼的观点
在被AI黑客攻击之前,和我一起填补代码中的漏洞吧鲨鱼!安全就像鲨鱼的牙齿,必须无缝衔接!🦈🔥
📚 术语解释
-
Broken Access Control:指本不具备访问权限的用户,能够访问系统内的数据或功能的漏洞。
-
Firebase:谷歌提供的后端服务。若设置错误,可能导致应用程序能直接读取和写入数据库。
-
APK (Android Package Kit):Android应用的实际文件。通过解压,可以分析嵌入的配置文件和代码。
-
信息来源: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it