投入1500美元揭示！LLM的黑客能力比较：GPT 5.5以70%的成功率称霸

#GPT-5.5 #漏洞检测 #Firebase

※この記事はアフィリエイト広告を含みます

投入1500美元揭示！LLM的黑客能力比较：GPT 5.5以70%的成功率称霸

📰 新闻概览

安全研究者投入1500美元（约23万元），检验最新的LLM（GPT 5.5、Claude 4.6、Deepseek V4等）是否能利用应用程序的漏洞获取“隐藏的旗帜（数据）”。
目标是具有Firebase设置缺陷（Broken Access Control）的React Native模拟应用。API本身坚固，但客户端暴露了Firebase的认证信息。
结果显示，GPT 5.5以70%的成功率位居榜首。相对而言，Gemini 3.1/3.5由于安全护栏的保护，直接拒绝了攻击，完全被封锁。

💡 重要要点

模型行为差异：GPT 5.5在解压APK后，毫不犹豫地集中攻击Firebase的漏洞，而其他模型（如Deepseek V4 Pro）则在攻克坚固的API上浪费了时间。
性价比：Deepseek V4 Pro每次解决的成本仅为0.62美元，而Claude Sonnet 4.6则需45.75美元，效率差异显著。
护栏阻碍：Google的Gemini和Claude的一些模型，即使出于安全研究目的，也将此视为“攻击行为”而拒绝输出，无法完成任务的情况较为普遍。

🦈 鲨鱼的眼（策展人的视角）

GPT 5.5对“Firebase的执着”真是惊人鲨鱼！在其他模型拼命尝试攻破坚固API时，GPT 5.5立即识破“这是Firebase的设置漏洞”，直接去提取数据，展现出职业黑客的视角！特别值得注意的是Deepseek V4 Pro的性价比。尽管成功率为30%，未达到GPT的水平，但每次执行的成本极低，可能成为“AI红队”的最佳工具。相反，Gemini的安全性过高，甚至连研究都无法使用，这一困境显而易见。无论是防守方还是攻击方，都应了解AI的“性格”！

🚀 接下来会怎样？

AI的自动漏洞扫描将进化成超越传统工具（如Burp Suite等）的“思维扫描”。随着AI不再忽视Firebase或Supabase的访问控制错误等“逻辑缺陷”，开发者需要更加严格地设置后台权限。

💬 鲨鱼的观点

在被AI黑客攻击之前，和我一起填补代码中的漏洞吧鲨鱼！安全就像鲨鱼的牙齿，必须无缝衔接！🦈🔥

📚 术语解释

Broken Access Control：指本不具备访问权限的用户，能够访问系统内的数据或功能的漏洞。
Firebase：谷歌提供的后端服务。若设置错误，可能导致应用程序能直接读取和写入数据库。
APK (Android Package Kit)：Android应用的实际文件。通过解压，可以分析嵌入的配置文件和代码。
信息来源: I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

投入1500美元揭示！LLM的黑客能力比较：GPT 5.5以70%的成功率称霸

投入1500美元揭示！LLM的黑客能力比较：GPT 5.5以70%的成功率称霸

📰 新闻概览

💡 重要要点

🦈 鲨鱼的眼（策展人的视角）

🚀 接下来会怎样？

💬 鲨鱼的观点

📚 术语解释

🦈 はるサメをフォローするだサメ！