导读扩散模型做异常检测的主流范式是重建先给图片加噪再去噪还原通过比较原图和重建图的差异来定位异常。但这条路有两个绕不开的问题——噪声强度要精细调参太强破坏正常区域太弱漏检异常去噪需要多步迭代10-1000步导致推理速度极慢大多数方法只有1-2 FPS。福井大学联合 UBC、Vector Institute 提出InvAD换了一条全新的思路不做重建做反演inversion。不是从噪声还原图片而是把图片往噪声方向推只需3步 DDIM 反演然后看最终的隐变量是否偏离了正常分布。正常图片会被映射到高密度区域异常图片则会落在低密度区域。结果MVTec-AD 图像级 AU-ROC 99.0%推理速度 88.1 FPS比此前最快的扩散方法 OmiAD39.4 FPS快 2.2 倍且无需噪声强度调参。更关键的是InvAD 是一个推理阶段的即插即用方案可以直接嫁接到已有的扩散 AD 方法上。论文信息标题InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models作者Shunsuke Sakai, Xiangteng He, Chunzhi Gu通讯作者, Leonid Sigal, Tatsuhito Hasegawa通讯作者机构福井大学、不列颠哥伦比亚大学UBC、Vector Institute for AI发表CVPR 2026代码https://github.com/SkyShunsuke/InversionAD一、重建范式的两大痛点为什么需要换一条路现有扩散模型做异常检测的方法几乎都遵循同一个范式在 RGB 空间做去噪检测。流程是 x₀ → xₜ → x̂₀先给输入图片加噪到某个时间步 t再用训练好的扩散模型去噪还原最后用原图和重建图的 MSE 差异来判断异常。这个范式存在两个根本性问题问题一噪声强度的两难困境。加噪强度是一个需要精细调参的超参数。噪声太强正常区域也会被破坏重建不回来产生大量误报噪声太弱异常区域也能被完美重建导致漏检。论文在 Table 4 中做了系统对比在 MVTec-AD 上重建方法的 AU-ROC 从 64.7% 到 98.2% 不等严重依赖噪声比例 r 和扩散步数 S 的组合。问题二多步去噪的计算瓶颈。要获得高质量的重建结果通常需要 10 到 1000 步迭代去噪。论文统计了现有方法的推理效率Table 1方法会议函数评估次数NFEFPS免调参多类别DiADAAAI24101.5✓✓TransFusionECCV24201.6✗✗MDMICML25401.9✗✗OmiADICML25139.4✗✓InvAD本文CVPR26388.1✓✓InvAD 以 3 次函数评估达到 88.1 FPS是唯一同时满足免调参和多类别统一检测的方法。图片来源于原论文二、核心思路加噪检测取代去噪检测InvAD 的核心洞察是扩散模型只在正常数据上训练过它学到的就是正常数据的分布。与其用去噪来重建图片不如用反演来测量图片是否属于正常分布。具体做法DDIM 反演给定输入图片 x₀沿 PF-ODE概率流常微分方程的确定性轨迹把图片反演到最终的隐变量 xT。由于 PF-ODE 是确定性的这构成了数据分布和噪声先验分布之间的一一映射。异常评分正常图片会被映射到先验分布标准高斯的高密度区域异常图片则会偏离。通过测量 xT 与已知先验分布的偏离程度来判断异常。少步反演用 Euler 方法近似 PF-ODE只需 3 步反演就够了。因为扩散模型在反演过程中自适应地添加噪声原始特征信息仍然被保留不会因为步数少而丢失检测精度。两种范式的对比维度重建范式InvAD 反演范式流程x₀ → xₜ → x̂₀加噪去噪x₀ → xT只做反演异常评分MSE(x₀, x̂₀)log p(xT)先验分布偏离度噪声调参需要精细调参噪声比例 r不需要免调参推理步数10-1000 步3 步轨迹类型随机路径DDPM确定性路径PF-ODE异常评分的细节论文设计了 NLL负对数似然 Diff欧氏范数空间差异的双重评分方案。单独用 NLL 或 Diff 都不够鲁棒但组合使用后对步数 S 的选择非常稳健——S3 时 AU-ROC 99.0%S1000 时仍有 95.4%。图片来源于原论文三、工业医疗双场景验证速度翻倍精度SOTA论文在 4 个主流基准上做了全面评估涵盖工业和医疗两大场景。工业异常检测多类别统一设置Table 2 核心数据图像级 AU-ROC / mAD 综合指标 / FPS数据集InvAD AU-ROCInvAD mADInvAD FPSOmiAD AU-ROCOmiAD mADOmiAD FPSMVTec-AD99.0%83.788.198.8%85.339.4VisA96.9%80.374.195.3%79.335.3MPDD96.5%80.112093.7%78.949.8在 MVTec-AD 上需要区分两个指标InvAD 的图像级 AU-ROC99.0%略高于 OmiAD98.8%但综合 mAD 指标 OmiAD85.3反超 InvAD83.7——主要差距来自像素级 AP 指标InvAD 46.5% vs OmiAD 52.6%。在 VisA 和 MPDD 上InvAD 在两项指标上均领先。InvAD 真正的优势在于速度88.1 FPS是 OmiAD39.4 FPS的2.2 倍是 DiAD1.5 FPS的58 倍。在 MPDD 上 FPS 达到 120已接近实时检测的工业需求。医疗异常检测BMAD 单类别设置方法mAD 综合FPSPatchCoreCVPR2286.420RD4ADCVPR2284.220InvAD87.288InvAD 在 6 个医疗数据集脑瘤、肝脏、视网膜、肺部等上达到最优 mAD 87.2%同时速度是 PatchCore 的4.4 倍。这验证了 InvAD 不限于工业场景在医疗异常检测中同样有效。图片来源于原论文四、消融实验反演为什么比重建好3步为什么够反演 vs 重建的直接对比论文在完全相同的模型上做了直接对比实验Table 4只改变推理阶段的策略重建 or 反演对比在不同扩散步数 S 下的表现推理策略S3S5S10S50S100S1000重建最优 r67.8%75.0%97.9%98.0%98.2%98.2%反演InvAD99.0%98.9%98.4%96.0%95.7%95.4%两个关键发现在少步S3时差距巨大反演 99.0% vs 重建 67.8%说明反演范式天然适合少步推理反演对步数选择很鲁棒S 从 3 到 1000AU-ROC 只从 99.0% 降到 95.4%而重建方法需要 S≥10 才能达到可用水平即插即用验证InvAD 只修改推理阶段不改变训练因此可以直接嫁接到已有方法上Table 5方法原始 det. AU-ROCInvAD det.原始 FPSInvAD FPSDiAD97.2%98.2%1.00.188.1×880MDM91.9%98.2%6.32.263×28MDM 加上 InvAD 后精度从 91.9% 跳到 98.2%速度从 2.2 FPS 提升到 63 FPS。这验证了反演范式作为即插即用模块的实用价值。各组件贡献配置特征空间扩散单步反演多步反演mADA1✓57.3A2✓44.9A3✓✓71.0A4InvAD✓✓83.7特征空间扩散Feature Diffusion Model和多步反演缺一不可。单步反演A3: 71.0远不如多步反演A4: 83.73步是精度和速度的最优平衡点。五、总结与思考论文贡献总结范式创新提出反演检测取代重建检测从根本上绕开了噪声调参和多步去噪两大瓶颈极致效率3步反演达到 88 FPS在保持 SOTA 精度的同时将推理速度提升 2 倍以上即插即用仅修改推理阶段可嫁接到已有扩散 AD 方法上如 DiAD 提速 880 倍跨领域验证在工业MVTec-AD、VisA、MPDD和医疗BMAD 6个子集两大场景均达到 SOTA个人点评这篇论文最值得学习的是思路的简洁性。传统重建范式的问题噪声调参、多步去噪在社区中被认为是需要各种 trick 来缓解的工程难题而 InvAD 直接换了一个角度——不重建了直接测量反演后的隐变量是否正常。这种从 paradigm 层面解决问题的思路比在旧范式里打补丁更有启发性。88 FPS 的速度对工业部署有实际意义。目前工厂产线的检测节拍通常在 100-500ms/件88 FPS约 11ms/帧已经完全满足实时需求且留出了大量余量用于后处理。需要注意的局限像素级定位精度有提升空间虽然图像级检测是 SOTA但像素级 AP 指标如 MVTec 46.5%低于 OmiAD52.6%和 DeSTSeg54.3%。对于需要精确标记缺陷边界的场景这可能是瓶颈依赖预训练特征提取器InvAD 的性能与 EfficientNet-B4 特征提取器强相关Table 7更换特征提取器可能需要重新调优训练仍需按数据集单独进行多类别统一设置下仍需在每个数据集上从头训练扩散模型跨数据集泛化能力未验证总体而言InvAD 用一个极简的思路解决了扩散 AD 的两大核心问题在精度和速度上都达到了新的标杆。对于工业视觉检测场景这是目前扩散路线中最值得关注的工作之一。
CVPR 2026 | 别人去噪要几十上百步,InvAD 只需 3 步反演:88 FPS 的扩散异常检测
导读扩散模型做异常检测的主流范式是重建先给图片加噪再去噪还原通过比较原图和重建图的差异来定位异常。但这条路有两个绕不开的问题——噪声强度要精细调参太强破坏正常区域太弱漏检异常去噪需要多步迭代10-1000步导致推理速度极慢大多数方法只有1-2 FPS。福井大学联合 UBC、Vector Institute 提出InvAD换了一条全新的思路不做重建做反演inversion。不是从噪声还原图片而是把图片往噪声方向推只需3步 DDIM 反演然后看最终的隐变量是否偏离了正常分布。正常图片会被映射到高密度区域异常图片则会落在低密度区域。结果MVTec-AD 图像级 AU-ROC 99.0%推理速度 88.1 FPS比此前最快的扩散方法 OmiAD39.4 FPS快 2.2 倍且无需噪声强度调参。更关键的是InvAD 是一个推理阶段的即插即用方案可以直接嫁接到已有的扩散 AD 方法上。论文信息标题InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models作者Shunsuke Sakai, Xiangteng He, Chunzhi Gu通讯作者, Leonid Sigal, Tatsuhito Hasegawa通讯作者机构福井大学、不列颠哥伦比亚大学UBC、Vector Institute for AI发表CVPR 2026代码https://github.com/SkyShunsuke/InversionAD一、重建范式的两大痛点为什么需要换一条路现有扩散模型做异常检测的方法几乎都遵循同一个范式在 RGB 空间做去噪检测。流程是 x₀ → xₜ → x̂₀先给输入图片加噪到某个时间步 t再用训练好的扩散模型去噪还原最后用原图和重建图的 MSE 差异来判断异常。这个范式存在两个根本性问题问题一噪声强度的两难困境。加噪强度是一个需要精细调参的超参数。噪声太强正常区域也会被破坏重建不回来产生大量误报噪声太弱异常区域也能被完美重建导致漏检。论文在 Table 4 中做了系统对比在 MVTec-AD 上重建方法的 AU-ROC 从 64.7% 到 98.2% 不等严重依赖噪声比例 r 和扩散步数 S 的组合。问题二多步去噪的计算瓶颈。要获得高质量的重建结果通常需要 10 到 1000 步迭代去噪。论文统计了现有方法的推理效率Table 1方法会议函数评估次数NFEFPS免调参多类别DiADAAAI24101.5✓✓TransFusionECCV24201.6✗✗MDMICML25401.9✗✗OmiADICML25139.4✗✓InvAD本文CVPR26388.1✓✓InvAD 以 3 次函数评估达到 88.1 FPS是唯一同时满足免调参和多类别统一检测的方法。图片来源于原论文二、核心思路加噪检测取代去噪检测InvAD 的核心洞察是扩散模型只在正常数据上训练过它学到的就是正常数据的分布。与其用去噪来重建图片不如用反演来测量图片是否属于正常分布。具体做法DDIM 反演给定输入图片 x₀沿 PF-ODE概率流常微分方程的确定性轨迹把图片反演到最终的隐变量 xT。由于 PF-ODE 是确定性的这构成了数据分布和噪声先验分布之间的一一映射。异常评分正常图片会被映射到先验分布标准高斯的高密度区域异常图片则会偏离。通过测量 xT 与已知先验分布的偏离程度来判断异常。少步反演用 Euler 方法近似 PF-ODE只需 3 步反演就够了。因为扩散模型在反演过程中自适应地添加噪声原始特征信息仍然被保留不会因为步数少而丢失检测精度。两种范式的对比维度重建范式InvAD 反演范式流程x₀ → xₜ → x̂₀加噪去噪x₀ → xT只做反演异常评分MSE(x₀, x̂₀)log p(xT)先验分布偏离度噪声调参需要精细调参噪声比例 r不需要免调参推理步数10-1000 步3 步轨迹类型随机路径DDPM确定性路径PF-ODE异常评分的细节论文设计了 NLL负对数似然 Diff欧氏范数空间差异的双重评分方案。单独用 NLL 或 Diff 都不够鲁棒但组合使用后对步数 S 的选择非常稳健——S3 时 AU-ROC 99.0%S1000 时仍有 95.4%。图片来源于原论文三、工业医疗双场景验证速度翻倍精度SOTA论文在 4 个主流基准上做了全面评估涵盖工业和医疗两大场景。工业异常检测多类别统一设置Table 2 核心数据图像级 AU-ROC / mAD 综合指标 / FPS数据集InvAD AU-ROCInvAD mADInvAD FPSOmiAD AU-ROCOmiAD mADOmiAD FPSMVTec-AD99.0%83.788.198.8%85.339.4VisA96.9%80.374.195.3%79.335.3MPDD96.5%80.112093.7%78.949.8在 MVTec-AD 上需要区分两个指标InvAD 的图像级 AU-ROC99.0%略高于 OmiAD98.8%但综合 mAD 指标 OmiAD85.3反超 InvAD83.7——主要差距来自像素级 AP 指标InvAD 46.5% vs OmiAD 52.6%。在 VisA 和 MPDD 上InvAD 在两项指标上均领先。InvAD 真正的优势在于速度88.1 FPS是 OmiAD39.4 FPS的2.2 倍是 DiAD1.5 FPS的58 倍。在 MPDD 上 FPS 达到 120已接近实时检测的工业需求。医疗异常检测BMAD 单类别设置方法mAD 综合FPSPatchCoreCVPR2286.420RD4ADCVPR2284.220InvAD87.288InvAD 在 6 个医疗数据集脑瘤、肝脏、视网膜、肺部等上达到最优 mAD 87.2%同时速度是 PatchCore 的4.4 倍。这验证了 InvAD 不限于工业场景在医疗异常检测中同样有效。图片来源于原论文四、消融实验反演为什么比重建好3步为什么够反演 vs 重建的直接对比论文在完全相同的模型上做了直接对比实验Table 4只改变推理阶段的策略重建 or 反演对比在不同扩散步数 S 下的表现推理策略S3S5S10S50S100S1000重建最优 r67.8%75.0%97.9%98.0%98.2%98.2%反演InvAD99.0%98.9%98.4%96.0%95.7%95.4%两个关键发现在少步S3时差距巨大反演 99.0% vs 重建 67.8%说明反演范式天然适合少步推理反演对步数选择很鲁棒S 从 3 到 1000AU-ROC 只从 99.0% 降到 95.4%而重建方法需要 S≥10 才能达到可用水平即插即用验证InvAD 只修改推理阶段不改变训练因此可以直接嫁接到已有方法上Table 5方法原始 det. AU-ROCInvAD det.原始 FPSInvAD FPSDiAD97.2%98.2%1.00.188.1×880MDM91.9%98.2%6.32.263×28MDM 加上 InvAD 后精度从 91.9% 跳到 98.2%速度从 2.2 FPS 提升到 63 FPS。这验证了反演范式作为即插即用模块的实用价值。各组件贡献配置特征空间扩散单步反演多步反演mADA1✓57.3A2✓44.9A3✓✓71.0A4InvAD✓✓83.7特征空间扩散Feature Diffusion Model和多步反演缺一不可。单步反演A3: 71.0远不如多步反演A4: 83.73步是精度和速度的最优平衡点。五、总结与思考论文贡献总结范式创新提出反演检测取代重建检测从根本上绕开了噪声调参和多步去噪两大瓶颈极致效率3步反演达到 88 FPS在保持 SOTA 精度的同时将推理速度提升 2 倍以上即插即用仅修改推理阶段可嫁接到已有扩散 AD 方法上如 DiAD 提速 880 倍跨领域验证在工业MVTec-AD、VisA、MPDD和医疗BMAD 6个子集两大场景均达到 SOTA个人点评这篇论文最值得学习的是思路的简洁性。传统重建范式的问题噪声调参、多步去噪在社区中被认为是需要各种 trick 来缓解的工程难题而 InvAD 直接换了一个角度——不重建了直接测量反演后的隐变量是否正常。这种从 paradigm 层面解决问题的思路比在旧范式里打补丁更有启发性。88 FPS 的速度对工业部署有实际意义。目前工厂产线的检测节拍通常在 100-500ms/件88 FPS约 11ms/帧已经完全满足实时需求且留出了大量余量用于后处理。需要注意的局限像素级定位精度有提升空间虽然图像级检测是 SOTA但像素级 AP 指标如 MVTec 46.5%低于 OmiAD52.6%和 DeSTSeg54.3%。对于需要精确标记缺陷边界的场景这可能是瓶颈依赖预训练特征提取器InvAD 的性能与 EfficientNet-B4 特征提取器强相关Table 7更换特征提取器可能需要重新调优训练仍需按数据集单独进行多类别统一设置下仍需在每个数据集上从头训练扩散模型跨数据集泛化能力未验证总体而言InvAD 用一个极简的思路解决了扩散 AD 的两大核心问题在精度和速度上都达到了新的标杆。对于工业视觉检测场景这是目前扩散路线中最值得关注的工作之一。