【目标检测系列·第 05 篇】开放世界检测:从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿

【目标检测系列·第 05 篇】开放世界检测:从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿 【目标检测系列·第 05 篇】开放世界检测从 Grounding DINO 到 SAM——零样本检测与分割的开放世界前沿系列回顾第 01 篇我们绘制了目标检测的全景图第 02 篇我们拆解了两阶段检测器第 03 篇我们深入了 YOLO 系列第 04 篇我们探索了 Anchor-Free 与 DETR 的范式革新。本篇进入目标检测最前沿的方向开放世界检测——从只认识训练过的类别到认识语言能描述的一切。传统检测器是封闭集合的——COCO 80 类、VOC 20 类新增类别必须重新标注、重新训练。开放世界检测打破了这一限制用自然语言描述目标模型就能检测——零样本、无需训练。GLIP 首次统一检测与定位预训练OWL-ViT 用 ViT 实现开放词汇检测Grounding DINO 达到 52.5 AP 零样本 SOTAYOLO-World 实现实时开放词汇检测52 FPSSAM/SAM 2 实现可提示分割与视频追踪。Grounded SAM 将检测与分割组合构建了检测→分割→追踪→理解的开放世界感知管道。今天我们从范式转变、核心模型到组合式应用彻底拆解开放世界检测。 文章目录 一、范式转变从封闭集合到开放世界 二、核心模型GLIP·OWL-ViT·Grounding DINO·YOLO-World·SAM 三、Grounded SAM 与开放世界应用 一、范式转变从封闭集合到开放世界1.1 封闭集合的困境每新增一个类别就要重新训练传统目标检测器是封闭集合的——它们只能检测训练时见过的类别。COCO 数据集有 80 类VOC 有 20 类LVIS 有 1203 类。如果需要检测一个训练集中没有的新类别比如蓝色马克杯唯一的办法是收集新类别的标注数据→重新训练模型→部署更新后的模型。这个过程耗时耗力在实际应用中几乎不可行。更深层的问题是真实世界的类别是无限的。工业质检中缺陷类型千变万化机器人操作中目标物体不可预知视频编辑中用户可能想选择任何对象。封闭集合检测器无法应对这种开放性需求——它被训练类别锁死了。1.2 开放词汇检测用语言定义世界开放词汇检测Open-Vocabulary Detection, OVD的核心思想用自然语言描述目标模型就能检测。不需要为每个类别收集标注数据不需要重新训练——只需要用文本描述你想检测什么。这背后的技术基础是视觉-语言预训练CLIP 等模型通过对比学习将图像和文本映射到同一语义空间。在 CLIP 空间中蓝色马克杯的文本嵌入与蓝色马克杯的图像嵌入距离很近——即使模型从未在检测数据中见过蓝色马克杯这个类别它也能通过文本-图像对齐找到对应的目标。开放词汇检测的关键转变从学类别到学语言。学了语言就学了所有类别——语言是类别的无限容器。这就是 CLIP 的革命性意义。1.3 三大技术支柱开放世界检测依赖三大技术支柱视觉-语言对齐。CLIP/ALIGN 等模型将图像和文本映射到同一语义空间使得文本描述可以直接匹配图像区域。这是开放词汇检测的基础——没有视觉-语言对齐就无法实现用语言定义世界。开放词汇分类。传统检测头的分类层是固定的80 类/1203 类无法扩展。开放词汇检测将分类层替换为文本嵌入匹配——将检测到的区域特征与文本嵌入计算相似度实现任意类别分类。这使得检测器不再受限于训练类别。可提示分割。SAM 接受点/框/文本提示输出精确分割掩码。检测分割一体化——不仅知道在哪里还知道精确轮廓是什么。可提示分割是开放世界感知的关键能力。1.4 封闭 vs 开放对比维度封闭集合开放词汇开放世界类别固定任意文本任意未知训练每类需标注零样本零样本新类别重新训练直接检测直接检测精度最高中中速度快中慢 二、核心模型GLIP·OWL-ViT·Grounding DINO·YOLO-World·SAM2.1 GLIP2022统一检测与定位预训练GLIPGrounded Language-Image Pre-training是开放词汇检测的先驱之一。核心创新将目标检测重新表述为定位问题——检测不再是分类回归而是文本-区域匹配回归。统一预训练。GLIP 将检测数据和定位数据如 GoldG、CC3M统一训练。检测数据提供精确的边界框标注定位数据提供文本-图像对如一只猫坐在沙发上。通过统一预训练GLIP 学会了用语言定位目标——即使没见过的类别也能通过文本描述定位。深度融合。GLIP 不是简单地将 CLIP 特征接在检测头上——它在每一层都进行文本-图像跨模态融合。X-层跨模态层让图像特征和文本特征逐层交互实现深层语义对齐。GLIP 在 COCO 零样本检测上达到 49.8 AP在 13 个下游检测任务上平均超过监督基线——证明了开放词汇检测的可行性。2.2 OWL-ViT2022ViT 架构的开放词汇检测OWL-ViTOpen-World Localization with Vision Transformers用纯 ViT 架构实现开放词汇检测。核心思路先用 CLIP 预训练 ViT再将 ViT 改造为检测器。两阶段设计。OWL-ViT 先用 CLIP 预训练图像和文本编码器冻结再添加轻量检测头。检测头将 ViT 的 patch 特征与文本嵌入计算相似度生成开放词汇分类结果。边界框回归头预测每个 patch 对应的边界框。OWL-ViT 的优势是架构简洁——纯 ViT没有复杂的 FPN/PAN。劣势是精度不如 GLIP/Grounding DINOCOCO 零样本 31.4 AP且推理速度中等。2.3 Grounding DINO2024零样本检测 SOTAGrounding DINO 是当前零样本检测的 SOTA。核心创新将 DINO 的检测能力与 GLIP 的定位能力深度融合在检测的每个阶段都注入语言信息。三阶段语言注入。Grounding DINO 在特征提取、编码器-解码器融合、检测头三个阶段都注入文本信息特征提取阶段用文本引导注意力Language-Guided Query Selection编码器-解码器阶段用跨模态注意力融合Cross-Modal Fusion检测头阶段用文本-区域匹配分类Open-Vocabulary Classification。性能。Grounding DINO 在 COCO 零样本检测上达到 52.5 AP——这是零样本检测的最高纪录。在 ODinWObject Detection in the Wild基准上达到 26.1 AP同样创下纪录。Grounding DINO 1.5 进一步提升了性能。局限。推理速度慢~5 FPS不适合实时场景。这是精度优先的代价——Grounding DINO 用 DINO 的 Transformer 架构计算量大。2.4 YOLO-World2024实时开放词汇检测YOLO-World 解决了开放词汇检测的速度问题用 YOLO 的速度做开放词汇检测。核心思路将 CLIP 的文本嵌入引入 YOLO 检测头实现开放词汇分类。Region-Text CLIP 预训练。YOLO-World 用大规模区域-文本对预训练来自 GoldG、CC3M 等数据集让 YOLO 的区域特征与 CLIP 文本嵌入对齐。预训练后YOLO-World 可以检测任意文本描述的目标。性能。YOLO-World 在 LVIS 上达到 35.4 AP推理速度 52 FPSV100——这是开放词汇检测的速度纪录。相比 Grounding DINO 的 ~5 FPSYOLO-World 快了约 10 倍但精度低约 17 AP。YOLOEYOLO-Extended进一步扩展了 YOLO-World支持文本/图像/内部词表三种提示方式实现更灵活的开放词汇检测。2.5 SAM / SAM 22023-2024可提示分割SAMSegment Anything Model不是检测器而是分割器——它接受提示点/框/文本输出精确分割掩码。SAM 的意义在于将分割从封闭类别解放为可提示——你提示什么它分割什么。SAM 架构。SAM 由三部分组成图像编码器ViT-H提取图像特征、提示编码器编码点/框/文本提示、掩码解码器根据图像特征提示生成掩码。SAM 在 SA-1B 数据集11M 图像1.1B 掩码上训练是当时最大的分割数据集。SAM 22024。SAM 2 将分割能力从图像扩展到视频。核心创新流式记忆机制——用前帧的分割结果作为记忆通过记忆注意力在后续帧中追踪目标。SAM 2 在 SA-V 数据集50.9K 视频上训练实现实时视频分割40 FPS。 三、Grounded SAM 与开放世界应用3.1 Grounded SAM检测分割追踪理解Grounded SAM 是开放世界感知的组合式方案Grounding DINO检测 SAM分割 SAM 2追踪 VLM理解。四步管道Step 1开放词汇检测。Grounding DINO 接收文本提示如蓝色杯子检测图像中所有匹配的目标输出边界框。零样本无需训练。Step 2可提示分割。SAM 接收检测框作为提示输出精确分割掩码。像素级分割边界精确——比边界框更精细。Step 3视频追踪可选。SAM 2 跨帧追踪分割掩码。流式记忆机制让目标在视频中被持续追踪——即使被短暂遮挡也能恢复。Step 4语义理解可选。VLM如 GPT-4V对分割区域生成描述——属性识别、关系推理、场景理解。从检测到到理解了。3.2 三大应用场景工业质检。零样本检测缺陷——无需为每种缺陷标注训练。文本描述缺陷“划痕”“凹陷”“色差”Grounding DINO 检测SAM 精确分割量化缺陷面积和位置。传统质检需要为每种产品、每种缺陷收集标注数据、训练专用模型——开放世界检测让质检变得即插即用。机器人操作。自然语言指令→检测→分割→操作。“拿桌上的红色杯子”——Grounding DINO 检测杯子SAM 分割轮廓抓取点估计器计算抓取位置机器人执行。开放世界检测让机器人从只能操作训练过的物体变成能操作语言能描述的任何物体。视频编辑。SAM 2 视频追踪。文本选择对象→分割→编辑→全程追踪。“替换背景中的人”——Grounding DINO 检测人物SAM 2 全程追踪分割视频编辑工具替换。这是视频后期制作的革命性工具。3.3 组合式 AI 的力量Grounded SAM 的成功揭示了一个深刻趋势未来的 AI 不是一个大模型而是多个专家模型的组合。Grounding DINO 是检测专家SAM 是分割专家SAM 2 是追踪专家VLM 是理解专家——每个专家做到极致组合起来就是开放世界感知。组合式 AI 的优势模块化每个专家独立优化、可扩展新能力新专家、可定制根据场景选择组合。劣势管道复杂多模型串联、速度慢每个模型都要推理、误差累积前一步错误传播到后续。 全文速查表核心模型对比模型类型零样本 mAP速度核心优势GLIP开放词汇49.8慢统一检测定位OWL-ViT开放词汇31.4中ViT 架构Grounding DINO开放词汇52.5~5 FPS最强零样本YOLO-World开放词汇35.452 FPS实时开放SAM可提示分割-中精确分割SAM 2视频分割-40 FPS视频追踪一句话总结开放世界检测是目标检测最前沿的方向——从只认识训练过的类别到认识语言能描述的一切。范式转变的核心从学类别到学语言——语言是类别的无限容器。三大技术支柱视觉-语言对齐CLIP、开放词汇分类文本嵌入匹配、可提示分割SAM。核心模型GLIP统一检测定位预训练49.8 AP、OWL-ViTViT 架构开放词汇、Grounding DINO零样本 SOTA 52.5 AP~5 FPS、YOLO-World实时开放词汇 35.4 AP52 FPS、SAM/SAM 2可提示分割视频追踪。Grounded SAM 组合检测分割追踪理解构建开放世界感知管道。三大应用工业质检零样本质检、机器人操作自然语言指令、视频编辑SAM 2 追踪。开放世界检测 组合式 AI 的典范——每个专家做到极致组合起来就是开放世界感知。速度-精度权衡依然存在Grounding DINO 精度最高但最慢YOLO-World 速度最快但精度中等。参考链接CLIP (Radford et al., 2021)GLIP (Li et al., 2022)OWL-ViT (Minderer et al., 2022)Grounding DINO (Liu et al., 2024)YOLO-World (Cheng et al., 2024)SAM (Kirillov et al., 2023)SAM 2 (Ravi et al., 2024)系列预告第 06 篇终篇将深入部署与未来——从量化剪枝蒸馏到边缘部署从 3D 检测到多模态拆解目标检测从实验室到生产的关键工程。