TPAMI 2025 | 双分支注意力新设计:AST-v2 让图像复原告别无关区域噪声交互

TPAMI 2025 | 双分支注意力新设计:AST-v2 让图像复原告别无关区域噪声交互 点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉的低层视觉领域图像复原一直是核心研究方向之一。从模糊的老照片修复到去除雨天、雾天、雪天给图像带来的退化再到低光环境下的图像增强如何从受损的图像中精准恢复出清晰、真实的画面不仅考验算法的性能也对计算效率提出了高要求。近期Shihao Zhou、Jinshan Pan、Jufeng Yang等研究者提出了自适应稀疏TransformerAST-v2在去雨、去雾、去雪、去影、去模糊、低光增强六大图像复原任务上实现了性能与效率的双重突破。今天我们就来深度解读这篇聚焦高效图像复原的优秀工作。论文信息题目 Learning an Adaptive Sparse Transformer for Efficient Image Restoration一种用于高效图像复原的自适应稀疏Transformer学习作者Shihao Zhou, Jinshan Pan, Jufeng Yang痛点传统Transformer的两大“绊脚石”基于Transformer的方法凭借强大的长距离依赖建模能力在图像复原领域崭露头角但始终面临两个核心问题密集注意力机制的“噪声干扰”传统Transformer的全注意力DSA会计算所有标记间的关联极易引入无关区域的噪声交互比如把图像中干净区域的纹理误判为雨线反而破坏复原效果特征冗余的“拖后腿”密集聚合的特征图中存在大量无用信息这些冗余内容会阻碍模型聚焦关键信号降低复原精度。此前也有研究尝试解决这些问题比如Top-K选择、超像素空间注意力等但要么对任务参数敏感要么仍未摆脱全标记计算的桎梏。如何在过滤噪声的同时保留关键信息成为亟待解决的难题。核心方案AST-v2的两大“杀手锏”研究者提出的AST-v2模型通过两大核心模块精准击破上述痛点先来看模型的整体架构图3AST-v2的整体流程十分清晰输入退化图像后先通过卷积层生成低层特征再经对称的编码器-解码器网络提取深层特征最后生成残差图像并与原始退化图像融合得到复原结果。编码器仅使用特征精炼前馈网络FRFN重点保留图像的局部模式解码器则结合自适应稀疏自注意力ASSA与FRFN既建模长程依赖又优化特征表示训练阶段采用Charbonnier损失保证复原结果与真实图像的贴合度。1. 自适应稀疏自注意力ASSA智能过滤噪声保留关键关联针对密集注意力的噪声问题研究者没有简单替换稀疏注意力而是设计了双分支的ASSA模块图4ASSA包含稀疏自注意力SSA和密集自注意力DSA两个分支SSA分支基于平方ReLU激活能自动过滤低匹配分数的无关关联实现注意力稀疏化但单纯的SSA会导致信息丢失因此研究者用SSA的输出作为指导通过尺度和偏移变换对DSA的注意力权重进行逐像素调制。这种设计既利用SSA过滤了噪声交互又借助DSA保留了关键的特征关联让模型能根据任务需求动态调整注意力稀疏度避免了“过度稀疏”或“噪声冗余”的极端情况。2. 特征精炼前馈网络FRFN精简特征聚焦有效信息为解决特征冗余问题FRFN采用“增强-简化”的特征变换范式图5首先FRFN将特征图按通道分组通过分组部分深度卷积增强信息丰富的通道随后引入门控机制抑制信息量少的冗余通道让模型把算力和注意力集中在关键特征上。相比传统前馈网络FFN对所有通道“一视同仁”的处理方式FRFN能更精准地提取有判别力的特征提升复原质量。实验验证六大任务全面领先性能与效率双优研究者在6大图像复原任务上对AST-v2进行了全面验证涵盖合成数据集和真实场景全方位检验模型的有效性。1. 去雨任务精准去雨不破坏图像原有细节在SPAD数据集上AST-v2对比15种主流算法PSNR指标远超此前最优的CNN方法提升4.76dB也显著优于各类Transformer基线。图6从视觉效果看传统CNN方法因感受野有限去雨后残留明显伪影部分Transformer方法则误将干净区域如白墙、轮胎内圈识别为雨线破坏了图像内容而AST-v2能精准去除雨线同时完整保留图像的结构和纹理。2. 去雪任务兼顾去雪效果与纹理细节在Snow100K数据集上AST-v2的PSNR指标至少领先专用去雪方法0.75dB对比强基线NAFNet更是提升了1.77dB。图7定性结果显示AST-v2在去除雪伪影的同时不会损伤图像的精细纹理而传统方法要么残留大量雪点要么过度处理导致细节丢失。3. 其他任务全场景表现亮眼去阴影ISTD数据集AST-v2对比最新方法DSP-FFANetPSNR提升0.32dB即使面对严重的阴影退化也能生成无伪影的无阴影图像去模糊GoPro/RealBlur数据集AST-v2 (L) 版本在PSNR上领先CODE、IR-SDE等方法至少0.67dB合成与真实场景下都能高效去除模糊低光增强LOL-v2/SMID数据集AST-v2在PSNR上领先MambaIR 1dB、QuadPrior 6.1dB能恢复自然的色彩和亮度避免过曝/欠曝问题去雾SOTS数据集AST-v2对比FSNet提升1.17dB去雾后图像无颜色失真和伪影更接近真实画面4. 消融实验核心模块的有效性验证为了验证ASSA和FRFN的价值研究者开展了大量消融实验ASSA对比Channel SA、Swin SA、Top-k SA等注意力机制PSNR均实现0.24dB以上的提升通过注意力熵值分析ASSA能平衡注意力的集中性与分散性既避免DSA的噪声干扰又解决SSA的信息丢失FRFN对比FFN、DFN、GDFN等变体PSNR领先至少0.3dB证明“增强-简化”范式能有效精简特征提升表示能力。5. 效率与泛化不止于性能更适配实际应用AST-v2不仅性能出众还兼顾效率对比Restormer、SwinIR等Transformer模型AST-v2参数量和FLOPs更低推理速度更快与初代AST相比AST-v2参数量减少87%FLOPs减少18%训练和推理速度分别提升1.7倍、1.9倍。在真实场景评估中AST-v2处理真实雨图的NIQE分数最低感知质量最优更重要的是复原后的图像还能提升下游任务目标检测、语义分割的性能比如在ExDark低光检测数据集上各类目标的检测AP均有显著提升。图17局限性与未来方向尽管AST-v2表现优异但面对极端严重的退化如密集到几乎覆盖语义内容的雨线、重度模糊模型仍会因有效信息不足而性能下降。未来可探索更鲁棒的特征提取方式或结合多模态信息进一步提升模型在极端退化场景下的表现。总结AST-v2通过自适应稀疏自注意力和特征精炼前馈网络的创新设计既解决了传统Transformer的噪声交互和特征冗余问题又实现了性能与效率的平衡。在六大图像复原任务上的全面领先以及在真实场景和下游任务中的优秀表现证明了该方法的广泛适用性和实用价值。这一工作为高效图像复原提供了新的思路也为Transformer在低层视觉领域的落地应用打下了坚实基础。期待后续能看到该方法在更多实际场景中的落地以及在模型轻量化、极端退化处理等方向的进一步突破。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~