【RT-DETR实战】057、动态稀疏注意力(Dynamic Sparse Attention)探索:从显存爆炸到推理加速的实战手记

【RT-DETR实战】057、动态稀疏注意力(Dynamic Sparse Attention)探索:从显存爆炸到推理加速的实战手记 一、那个让显存炸掉的下午上周三下午,实验室的服务器突然报警——RTX 4090的24G显存被吃满了。监控显示,某个RT-DETR训练任务正在疯狂吞噬内存。我盯着屏幕上的OOM错误,心里清楚:又是注意力机制惹的祸。问题出在Decoder的自注意力层。当处理512x512的输入图像时,特征图上的查询点数量达到262144个。标准的全局注意力计算复杂度是O(N²),这意味着我们需要处理一个262144×262144的注意力矩阵。别说训练了,光是把这个矩阵放进显存就已经不可能。# 这是最初的天真实现(千万别这么写!)defnaive_attention(Q,K,V):# Q/K/V shape: [B, H, N, C]scores=