YOLO注意力机制改进- 第30篇: SKNet选择性核注意力的多尺度融合

YOLO注意力机制改进- 第30篇: SKNet选择性核注意力的多尺度融合 10.1 引言多尺度特征提取是目标检测任务中的核心挑战之一。在真实场景中,目标物体的大小差异巨大——从占满整幅图像的大目标到只有几个像素的小目标,模型需要能够同时处理各种尺度的目标。传统的卷积神经网络通过堆叠不同层次的特征图来获得多尺度表达,但每个卷积层的感受野是固定的,难以自适应地调整。为了解决这个问题,研究者们提出了多种多尺度卷积设计:Inception系列:通过并行使用不同大小的卷积核(1×1、3×3、5×5等)来捕获多尺度特征。Res2Net:在残差块内部引入多尺度分层连接,增加感受野的多样性。可变形卷积:通过学习卷积核的偏移量,使采样点能够自适应地调整位置。注意力机制:通过通道注意力或空间注意力来动态调整特征权重。然而,这些方法都存在一定的局限性。Inception虽然使用了多尺度卷积,但所有尺度的特征被简单拼接,没有考虑不同尺度对不同目标的重要性差异。可变形卷积虽然能调整采样位置,但仍然使用单一尺寸的卷积核。2019年,Li等人提出了SKNet(Selective Kernel Networks)选择性核网络,其核心思想是让每个神经元能够根据输入自适应地选择不同大小的卷积核。SKNet通过设计一种"多分支卷积 + 注意力融合"的结构,实现了对不同尺度卷积核的动态选择。SKNet的主要创新点包括:多分支卷