【RT-DETR实战】 138、DETR系列改进最新论文解读:当DETR遇上DINO与DAB-DETR

【RT-DETR实战】 138、DETR系列改进最新论文解读:当DETR遇上DINO与DAB-DETR 从一次深夜调试说起上周在部署RT-DETR到边缘设备时遇到个怪现象:同一个目标在视频连续帧中时而检出时而消失,边界框轻微抖动。传统NMS后处理参数调了半天没根本解决,突然意识到——这可能是DETR系列框架的“二分图匹配”机制在实时视频流里的固有波动。于是重新翻开DINO和DAB-DETR的论文,发现这两篇工作早就针对这类问题给出了更优雅的解法。DAB-DETR:把Anchor Box概念请回Transformer最初DETR完全抛弃Anchor,用可学习的位置查询(learnable query)做目标定位,虽然简洁但训练收敛慢,小目标检测也不稳定。DAB-DETR(ICLR 2022)做了个聪明的折中:让每个查询显式对应一个四维坐标 (x, y, w, h),其实就是把Anchor以另一种形式请回来了。# 伪代码示意:DAB-DETR的查询初始化# 传统DETR的查询是纯向量,这里直接绑定空间坐标classDABQuery(