【YOLO全系列架构演进史】6 YOLOv12:Area Attention与R-ELAN的注意力中心化设计

【YOLO全系列架构演进史】6 YOLOv12:Area Attention与R-ELAN的注意力中心化设计 YOLOv12:Area Attention与R-ELAN的注意力中心化设计1 导论:为什么YOLO需要一次注意力觉醒1.1 从卷积霸权到注意力中心1.1.1 感受野的吸管效应我们回想一下,从YOLOv1到YOLOv11,整个系列都建立在卷积神经网络的霸权之上。卷积核像一个个小窗口,在图像上滑动,提取局部特征。这种方式很快,但有一个根本性的局限:感受野的增长是缓慢的。一个3乘3的卷积核,要看到整张图的信息,需要堆叠很多层。这就像我们通过一根吸管看世界,每次只能看到一小片,必须不断移动和累积才能拼凑出全貌。自注意力机制打破了这根吸管。它让每个位置都能直接看到所有其他位置,全局上下文在一层之内就能汇聚。但问题来了:在实时目标检测的场景里,自注意力的计算量随图像尺寸平方增长,这让YOLO的实时性承诺面临崩塌。1.1.2 YOLOv12的核心命题YOLOv12的核心命题由此诞生:我们能否把注意力的全局感知能力塞进YOLO的实时框架里,而不让计算量爆炸?答案是,通过Area Attention把全局视野切成区域拼图,通过R-ELAN把深层特征聚合重新设计。这就是注意力中心化的含义——注意力不再是卷积主干网络上可有可无的补丁,而是整个架构的支点。1.2 本文的认知路线图1