整理 | 郑丽媛出品 | CSDNIDCSDNnews大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算它们能否像安全研究员一样主动发现漏洞、完成攻击呢为了验证这一点最近安全研究员 Kasra Rahjerdi 做了一场颇为“烧钱”的实验他专门构建了一个存在真实 Bug 的移动应用并让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型进行自主分析和攻击。最终这场实验总花费超 1500 美元GPT-5.5 以 70% 的成功率排名第一而不少热门模型则陷入错误方向反复尝试甚至连真正的漏洞入口都没有找到。一个专门为 AI 设计的“Bug 靶场”为了测试大模型的真实安全能力Kasra 搭建了一套完整的实验环境具体并不复杂用 Expo 搭建了一款 React Native 应用 BookNook并配套开发了 Python 后端服务。表面上看这只是一个普通的读书社区首页展示书籍推荐、排行榜展示活跃读者、用户主页展示书评内容。但在系统内部Kasra故意埋下了一个现实世界中经常出现的安全 Bug。所有参测模型获得的信息完全一致APK 安装包、挑战说明文档。而模型的唯一目标是获取某位用户私有书评中的 Flag——换句话说这相当于一次简化版的渗透测试任务。为了尽可能公平Kasra 给所有模型设置了统一规则开启最高推理模式Temperature 统一设置为 0.7每次运行预算上限 10 美元单次运行最长 2 小时每个模型最多测试 10 次不过随着费用不断上涨部分模型最终没能完成全部测试。另外由于 Kasra 本人已获得 OpenAI 的安全研究授权因此 GPT 系列不会因为涉及Bug 分析而直接拒绝任务。CSDN 6 月宠粉福利开发者“神装”补给站200 小时 GPU 算力免费领瑞幸咖啡/肯德基早餐/麦当劳套餐/下午茶等能量套餐任选其一入群还可每月定期抽取旗舰显卡、AI PC 等极客神装领取地址https://s.csdn.cn/4nPsOp一场价值 1500 美元的大模型“攻防赛”如开头所说在完成全部 10 轮测试的模型中GPT-5.5 获得了最佳成绩GPT-5.5 表现最佳成功率达到 70%实验中的真正突破口并不在客户端代码也不在 API 接口而是在应用关联的 Firebase 服务中——而 GPT-5.5最大的优势在于能够迅速识别这一点。Kasra 发现几乎每一次成功运行中GPT-5.5 都会在解压 APK 后迅速定位到 Firebase并围绕其展开后续攻击而不会长期陷入 API 分析阶段。相比之下很多失败的模型都掉进了同一个陷阱把绝大多数时间耗费在客户端和后端 API 上。DeepSeek 和 Claude 表现不错但稳定性不足排名第二的是 DeepSeek V4 Pro。虽然最终成功率只有 30%但其成本优势十分明显平均一次测试仅需 0.19 美元远低于 GPT-5.5 的 6.62 美元。不过从运行记录来看DeepSeek 存在明显的路径依赖问题。在 10 次测试中有 5 次完全没有关注到 Firebase剩余 5 次倒是发现了 Firebase但其中有 2 次选择通过 API 间接利用 Firebase 认证而不是直接攻击 Firebase 本身。Claude 系列则出现另一种情况无论是 Sonnet 还是 Opus很多次测试实际上已经走在正确方向上但最终却被预算限制或者安全护栏机制提前打断。Kasra 表示多次看到 Claude 距离成功仅剩一步之遥却因为触发安全策略而终止运行。Gemini 被安全策略“卡住”了Gemini 系列则有些特殊。Gemini 3.1 Pro Preview 几乎在所有测试刚开始就直接拒绝执行任务。这一点从 Token 消耗量就能看出来Gemini 3.1 Pro 仅消耗约 9000 Token其他模型普遍在 10-40 万 Token 之间。也就是说它根本没有真正进入 Bug 分析阶段。Gemini 3.5 Flash 稍微好一些少数测试能够进入分析阶段但在接近关键步骤时又触发安全策略最终终止任务跟 Claude Opus 差不多。一些未完成 10 次测试的模型由于成本越来越高后来 Kasra 没有给所有模型都做满 10 次测试但还是记录了结果其中最让他意外的是 Qwen 3.7 Max。在测试前期Kasra 曾对 Qwen 3.7 Max 抱有很高期待因为在正式评测开始之前Qwen 是除 GPT 外唯一成功完成挑战的模型。然而在正式测试中 Qwen 却未能复现这一结果。大部分运行都死盯着 API 中可能存在的 IDOR不安全直接对象引用漏洞。更夸张的是平均每次运行消耗超过 730 万 Token成为本次实验中最“烧钱”的模型之一。相比之下Kimi K2.6 虽然只测试了一次却成功完成了挑战而且速度和资源消耗都接近 DeepSeek V4 Pro。但由于 API 并发限制Kasra 最终没有继续扩大测试规模。一个有趣发现中国模型更愿意“攻击数据库”除了成功率之外Kasra 还观察到了一个有趣现象。不少模型在攻击过程中会突然出现类似判断这可能会影响真实数据库因此不应该继续执行随后主动放弃部分攻击路径。而中国模型则普遍没有这种顾虑。在面对数据库层面的利用机会时它们通常会更加积极地继续探索——虽然这并不意味着攻击能力一定更强但确实体现出了不同模型训练和安全对齐策略上的差异。AI 安全研究员可能已经在路上正如 Kasra 所说这并不是一次严格意义上的科学评测纯属图一乐但它依然展示了一个值得关注的趋势今天的大模型已经不仅仅会写代码、补 Bug、生成文档它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。尤其是 GPT-5.5 在本次实验中展现出的表现基本已接近初级安全研究员的工作水平。当然目前来说AI 距离真正意义上的“自动化渗透测试专家”还有不小差距。但如果把时间线拉长几年当 Agent 能力、工具调用以及长上下文推理进一步成熟后自动化 Bug 挖掘很可能会成为AI最具冲击力的应用场景之一。而这场花费 1500 美元的实验或许只是一个开始。原文链接https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/
花1500美元,让AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷
整理 | 郑丽媛出品 | CSDNIDCSDNnews大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算它们能否像安全研究员一样主动发现漏洞、完成攻击呢为了验证这一点最近安全研究员 Kasra Rahjerdi 做了一场颇为“烧钱”的实验他专门构建了一个存在真实 Bug 的移动应用并让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型进行自主分析和攻击。最终这场实验总花费超 1500 美元GPT-5.5 以 70% 的成功率排名第一而不少热门模型则陷入错误方向反复尝试甚至连真正的漏洞入口都没有找到。一个专门为 AI 设计的“Bug 靶场”为了测试大模型的真实安全能力Kasra 搭建了一套完整的实验环境具体并不复杂用 Expo 搭建了一款 React Native 应用 BookNook并配套开发了 Python 后端服务。表面上看这只是一个普通的读书社区首页展示书籍推荐、排行榜展示活跃读者、用户主页展示书评内容。但在系统内部Kasra故意埋下了一个现实世界中经常出现的安全 Bug。所有参测模型获得的信息完全一致APK 安装包、挑战说明文档。而模型的唯一目标是获取某位用户私有书评中的 Flag——换句话说这相当于一次简化版的渗透测试任务。为了尽可能公平Kasra 给所有模型设置了统一规则开启最高推理模式Temperature 统一设置为 0.7每次运行预算上限 10 美元单次运行最长 2 小时每个模型最多测试 10 次不过随着费用不断上涨部分模型最终没能完成全部测试。另外由于 Kasra 本人已获得 OpenAI 的安全研究授权因此 GPT 系列不会因为涉及Bug 分析而直接拒绝任务。CSDN 6 月宠粉福利开发者“神装”补给站200 小时 GPU 算力免费领瑞幸咖啡/肯德基早餐/麦当劳套餐/下午茶等能量套餐任选其一入群还可每月定期抽取旗舰显卡、AI PC 等极客神装领取地址https://s.csdn.cn/4nPsOp一场价值 1500 美元的大模型“攻防赛”如开头所说在完成全部 10 轮测试的模型中GPT-5.5 获得了最佳成绩GPT-5.5 表现最佳成功率达到 70%实验中的真正突破口并不在客户端代码也不在 API 接口而是在应用关联的 Firebase 服务中——而 GPT-5.5最大的优势在于能够迅速识别这一点。Kasra 发现几乎每一次成功运行中GPT-5.5 都会在解压 APK 后迅速定位到 Firebase并围绕其展开后续攻击而不会长期陷入 API 分析阶段。相比之下很多失败的模型都掉进了同一个陷阱把绝大多数时间耗费在客户端和后端 API 上。DeepSeek 和 Claude 表现不错但稳定性不足排名第二的是 DeepSeek V4 Pro。虽然最终成功率只有 30%但其成本优势十分明显平均一次测试仅需 0.19 美元远低于 GPT-5.5 的 6.62 美元。不过从运行记录来看DeepSeek 存在明显的路径依赖问题。在 10 次测试中有 5 次完全没有关注到 Firebase剩余 5 次倒是发现了 Firebase但其中有 2 次选择通过 API 间接利用 Firebase 认证而不是直接攻击 Firebase 本身。Claude 系列则出现另一种情况无论是 Sonnet 还是 Opus很多次测试实际上已经走在正确方向上但最终却被预算限制或者安全护栏机制提前打断。Kasra 表示多次看到 Claude 距离成功仅剩一步之遥却因为触发安全策略而终止运行。Gemini 被安全策略“卡住”了Gemini 系列则有些特殊。Gemini 3.1 Pro Preview 几乎在所有测试刚开始就直接拒绝执行任务。这一点从 Token 消耗量就能看出来Gemini 3.1 Pro 仅消耗约 9000 Token其他模型普遍在 10-40 万 Token 之间。也就是说它根本没有真正进入 Bug 分析阶段。Gemini 3.5 Flash 稍微好一些少数测试能够进入分析阶段但在接近关键步骤时又触发安全策略最终终止任务跟 Claude Opus 差不多。一些未完成 10 次测试的模型由于成本越来越高后来 Kasra 没有给所有模型都做满 10 次测试但还是记录了结果其中最让他意外的是 Qwen 3.7 Max。在测试前期Kasra 曾对 Qwen 3.7 Max 抱有很高期待因为在正式评测开始之前Qwen 是除 GPT 外唯一成功完成挑战的模型。然而在正式测试中 Qwen 却未能复现这一结果。大部分运行都死盯着 API 中可能存在的 IDOR不安全直接对象引用漏洞。更夸张的是平均每次运行消耗超过 730 万 Token成为本次实验中最“烧钱”的模型之一。相比之下Kimi K2.6 虽然只测试了一次却成功完成了挑战而且速度和资源消耗都接近 DeepSeek V4 Pro。但由于 API 并发限制Kasra 最终没有继续扩大测试规模。一个有趣发现中国模型更愿意“攻击数据库”除了成功率之外Kasra 还观察到了一个有趣现象。不少模型在攻击过程中会突然出现类似判断这可能会影响真实数据库因此不应该继续执行随后主动放弃部分攻击路径。而中国模型则普遍没有这种顾虑。在面对数据库层面的利用机会时它们通常会更加积极地继续探索——虽然这并不意味着攻击能力一定更强但确实体现出了不同模型训练和安全对齐策略上的差异。AI 安全研究员可能已经在路上正如 Kasra 所说这并不是一次严格意义上的科学评测纯属图一乐但它依然展示了一个值得关注的趋势今天的大模型已经不仅仅会写代码、补 Bug、生成文档它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。尤其是 GPT-5.5 在本次实验中展现出的表现基本已接近初级安全研究员的工作水平。当然目前来说AI 距离真正意义上的“自动化渗透测试专家”还有不小差距。但如果把时间线拉长几年当 Agent 能力、工具调用以及长上下文推理进一步成熟后自动化 Bug 挖掘很可能会成为AI最具冲击力的应用场景之一。而这场花费 1500 美元的实验或许只是一个开始。原文链接https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/