作者Mariko Wakabayashi排版Alan Wang减少干扰信息后安全告警会更可靠、更便于处置。本文将介绍我们如何借助具备上下文感知能力的大语言模型推理优化核验流程。密钥扫描在保护开发者与企业组织方面发挥着关键作用。它能够及早捕获泄露的凭证避免微小疏漏演变为真实安全事件。在 GitHub 的海量业务规模下即便是轻微的低效问题也会造成显著使用阻碍。过多的误报会降低告警信息的可信度。当告警信息繁杂冗余时开发者需要耗费大量时间甄别信息用于修复真实安全隐患的时间随之减少。长此以往安全问题处置效率会下降用户对该系统的信赖度也会降低。为解决这一难题GitHub 与微软安全与人工智能部门的智能体攻防团队展开合作为 GitHub 的密钥扫描校验功能引入更多场景化逻辑推理能力。本次合作采用了 Agentic Secret Finder 的验证方案这套完整的检测验证系统可结合代码上下文判断疑似密钥而非仅依靠匹配类密钥模式完成识别。借助该方案GitHub 得以在保障密钥扫描原有检测覆盖范围的前提下探索减少低价值告警的可行路径。GitHub 当前的密钥扫描能力GitHub 密钥扫描结合了基于模式的检测与基于 AI 的检测用于识别潜在的密钥。其中基于模式的检测能够捕获已知的密钥格式例如用于 Token 和 API Key 的合作伙伴模式基于 AI 的通用密钥检测则进一步扩展了覆盖范围可以识别那些不符合已知提供商模式的非结构化密钥例如密码等信息。在提供商模式的密钥检测方面GitHub 已经在超大规模场景下实现了业界领先的准确率能够处理数十亿次代码推送并在数百万个代码仓库中保护数千万开发者。随着 GitHub 将能力扩展到 AI 驱动的密钥检测一个新的挑战也随之出现如何让 AI 检测出的密钥在准确率上接近提供商模式检测所达到的同等高标准。此次合作正是围绕这一目标展开将 GitHub 的大规模检测流水线与基于大语言模型的上下文验证能力相结合以提升告警质量并增强开发者信任。我们的方法让密钥扫描告警具备可信度只有能快速区分需处理告警与无关提示密钥扫描才能发挥最大价值。GitHub 原本已设置降噪防护机制但部分形似密钥的字符仍需结合更多上下文才能判断是否属于真实泄露。为提升这类告警的可信度我们在校验流程中新增多层逻辑推理判断。系统会分析检测到的字符在代码中的出现形式以此更精准区分真实泄露内容与仅外观敏感、实际无风险的字符。这能帮助开发者减少排查低价值告警的时间将更多精力用于处理真正关键的安全隐患。在流程中的定位这一方案直接基于现有系统搭建。检测模块持续生成密钥候选项校验环节对候选项进行评估。更强的上下文感知能力让系统能更精准区分真实密钥与无关干扰信息。最终实现更高的检测精准度且无需修改上游检测逻辑、也不会降低信息覆盖范围。工作原理验证环节的核心难点在于确定需要提供哪些上下文信息。仅一小段代码片段通常不足以判断某段内容是否为真实密钥但如果传入完整文件或代码仓库又会引入大量冗余干扰增加计算成本和响应延迟。我们并不是提供更多上下文而是提供更高质量的上下文。相比直接发送大段代码我们会提取一组高价值的信息用以说明该数值的实际使用方式。例如我们会分析一个值是否被赋值给某个变量以及它是否在后续被传递到 API 请求、身份验证请求头、数据库客户端或云服务 SDK 调用中。模式匹配可以判断一个值看起来像密钥但无法判断它是否真的被当作密钥使用。而结合周围的使用上下文模型无需审阅整个文件或代码仓库就能够更准确地区分真正存在泄露风险的密钥与随机 UUID、不透明字符串等容易引发误报的内容从而有效减少误报。聚焦上下文而不是更多数据人们很容易认为要提升检测准确率就需要分析更多代码。然而事实恰恰相反。大多数误报都可以通过聚焦于文件级上下文得到有效识别。真正重要的并不是模型看到多少代码而是它是否获得了正确的信号。在很多情况下只需分析一个值在单个文件中的使用方式就足以判断它是否是真正的密钥。那些看起来像占位符、测试数据或未被使用的配置项通常无需更深入的分析便可以被过滤掉。这种方法兼顾了效果与实用性既能够保持较高的检测准确率又具备较低的响应延迟同时还能在大规模代码仓库中实现高效扩展。实践结果有效降低误报率我们在数百条由客户确认的误报告警上对这一方案进行了评估。最初设定的目标是将误报率降低65%最终实际达到了75.76%不仅超出了预期目标同时依然保持了优异的检测能力。对于开发者而言这意味着告警噪声显著减少真正需要关注和处理的告警占比进一步提升让密钥扫描的结果更加可信、更具可操作性。这一改进会直接体现在开发者体验中。随着无关告警的减少开发者更容易信任自己看到的结果。用于排查噪声的时间更少真正的问题能够被更快地优先处理并得到修复。下一步我们将继续在更大规模的数据集和真实线上流量中评估这一方法同时不断优化上下文的提取与使用方式以进一步提升验证效果。在大规模场景下降低误报一直是持续存在的关键需求。这项工作聚焦于在最关键的环节提升信号质量让告警更值得信任也更易于采取行动。我们的目标很简单更少干扰、更清晰的信号以及对真实风险更快速的响应。从今天开始为你的组织运行风险评估或了解更多关于密钥扫描的信息。
技术速递|提升密钥扫描可信度:大规模降低误报
作者Mariko Wakabayashi排版Alan Wang减少干扰信息后安全告警会更可靠、更便于处置。本文将介绍我们如何借助具备上下文感知能力的大语言模型推理优化核验流程。密钥扫描在保护开发者与企业组织方面发挥着关键作用。它能够及早捕获泄露的凭证避免微小疏漏演变为真实安全事件。在 GitHub 的海量业务规模下即便是轻微的低效问题也会造成显著使用阻碍。过多的误报会降低告警信息的可信度。当告警信息繁杂冗余时开发者需要耗费大量时间甄别信息用于修复真实安全隐患的时间随之减少。长此以往安全问题处置效率会下降用户对该系统的信赖度也会降低。为解决这一难题GitHub 与微软安全与人工智能部门的智能体攻防团队展开合作为 GitHub 的密钥扫描校验功能引入更多场景化逻辑推理能力。本次合作采用了 Agentic Secret Finder 的验证方案这套完整的检测验证系统可结合代码上下文判断疑似密钥而非仅依靠匹配类密钥模式完成识别。借助该方案GitHub 得以在保障密钥扫描原有检测覆盖范围的前提下探索减少低价值告警的可行路径。GitHub 当前的密钥扫描能力GitHub 密钥扫描结合了基于模式的检测与基于 AI 的检测用于识别潜在的密钥。其中基于模式的检测能够捕获已知的密钥格式例如用于 Token 和 API Key 的合作伙伴模式基于 AI 的通用密钥检测则进一步扩展了覆盖范围可以识别那些不符合已知提供商模式的非结构化密钥例如密码等信息。在提供商模式的密钥检测方面GitHub 已经在超大规模场景下实现了业界领先的准确率能够处理数十亿次代码推送并在数百万个代码仓库中保护数千万开发者。随着 GitHub 将能力扩展到 AI 驱动的密钥检测一个新的挑战也随之出现如何让 AI 检测出的密钥在准确率上接近提供商模式检测所达到的同等高标准。此次合作正是围绕这一目标展开将 GitHub 的大规模检测流水线与基于大语言模型的上下文验证能力相结合以提升告警质量并增强开发者信任。我们的方法让密钥扫描告警具备可信度只有能快速区分需处理告警与无关提示密钥扫描才能发挥最大价值。GitHub 原本已设置降噪防护机制但部分形似密钥的字符仍需结合更多上下文才能判断是否属于真实泄露。为提升这类告警的可信度我们在校验流程中新增多层逻辑推理判断。系统会分析检测到的字符在代码中的出现形式以此更精准区分真实泄露内容与仅外观敏感、实际无风险的字符。这能帮助开发者减少排查低价值告警的时间将更多精力用于处理真正关键的安全隐患。在流程中的定位这一方案直接基于现有系统搭建。检测模块持续生成密钥候选项校验环节对候选项进行评估。更强的上下文感知能力让系统能更精准区分真实密钥与无关干扰信息。最终实现更高的检测精准度且无需修改上游检测逻辑、也不会降低信息覆盖范围。工作原理验证环节的核心难点在于确定需要提供哪些上下文信息。仅一小段代码片段通常不足以判断某段内容是否为真实密钥但如果传入完整文件或代码仓库又会引入大量冗余干扰增加计算成本和响应延迟。我们并不是提供更多上下文而是提供更高质量的上下文。相比直接发送大段代码我们会提取一组高价值的信息用以说明该数值的实际使用方式。例如我们会分析一个值是否被赋值给某个变量以及它是否在后续被传递到 API 请求、身份验证请求头、数据库客户端或云服务 SDK 调用中。模式匹配可以判断一个值看起来像密钥但无法判断它是否真的被当作密钥使用。而结合周围的使用上下文模型无需审阅整个文件或代码仓库就能够更准确地区分真正存在泄露风险的密钥与随机 UUID、不透明字符串等容易引发误报的内容从而有效减少误报。聚焦上下文而不是更多数据人们很容易认为要提升检测准确率就需要分析更多代码。然而事实恰恰相反。大多数误报都可以通过聚焦于文件级上下文得到有效识别。真正重要的并不是模型看到多少代码而是它是否获得了正确的信号。在很多情况下只需分析一个值在单个文件中的使用方式就足以判断它是否是真正的密钥。那些看起来像占位符、测试数据或未被使用的配置项通常无需更深入的分析便可以被过滤掉。这种方法兼顾了效果与实用性既能够保持较高的检测准确率又具备较低的响应延迟同时还能在大规模代码仓库中实现高效扩展。实践结果有效降低误报率我们在数百条由客户确认的误报告警上对这一方案进行了评估。最初设定的目标是将误报率降低65%最终实际达到了75.76%不仅超出了预期目标同时依然保持了优异的检测能力。对于开发者而言这意味着告警噪声显著减少真正需要关注和处理的告警占比进一步提升让密钥扫描的结果更加可信、更具可操作性。这一改进会直接体现在开发者体验中。随着无关告警的减少开发者更容易信任自己看到的结果。用于排查噪声的时间更少真正的问题能够被更快地优先处理并得到修复。下一步我们将继续在更大规模的数据集和真实线上流量中评估这一方法同时不断优化上下文的提取与使用方式以进一步提升验证效果。在大规模场景下降低误报一直是持续存在的关键需求。这项工作聚焦于在最关键的环节提升信号质量让告警更值得信任也更易于采取行动。我们的目标很简单更少干扰、更清晰的信号以及对真实风险更快速的响应。从今天开始为你的组织运行风险评估或了解更多关于密钥扫描的信息。