DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection一句话先说结论DitHub 这篇论文最有意思的地方,不是把检测器“再训强一点”,而是换了个思路:把新知识拆成一个个小模块来管理。以后模型学会“狗”“热成像中的人”“稀有蘑菇”,不一定要全塞进同一套权重里,而是像 Git 一样,给每个类别或任务维护自己的“分支”,需要的时候再 fetch、再 merge。论文作者发现,这种方式不仅更灵活,而且在增量开放词表检测上效果还真更好,在 ODinW-13 和他们新建的 ODinW-O 上都拿到了 SOTA。1. 这篇论文想解决什么问题?先解释一下背景。传统目标检测一般是“封闭类别”的:猫狗车人这些类别,训练前就定好了。而开放词表检测不一样,它允许你在推理时直接输入文本提示,比如“axolotl(美西螈)”“thermal person(热成像中的人)”,模型也要尽量把目标找出来。这类方法通常建立在视觉-语言预训练模型之上,比如 GLIP、Grounding DINO。问题来了:虽然这类模型零样本泛化很强,但要把它持续用于真实世界,就会遇到一个很烦的事:今天你想让它更会识别“蘑菇”明天你又想增强“热成像中的人”后天又想补一个很少见的新类别很多现有方法的做法是:把新知识继续压进同一套权重里。论文把这种方式叫 monolithic adaptation(单体式适配)。它的问题很像:你把所有项目都写进一个超大的单文件脚本里,短期能跑,长期就会越来越难维护。某个类别想单独升级、回退、删除,都会变得很别扭,而且不同知识之间还可能互相干扰。2. DitHub 的核心想法:别把知识都塞
DitHub:把目标检测做成“Git 分支管理”
DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection一句话先说结论DitHub 这篇论文最有意思的地方,不是把检测器“再训强一点”,而是换了个思路:把新知识拆成一个个小模块来管理。以后模型学会“狗”“热成像中的人”“稀有蘑菇”,不一定要全塞进同一套权重里,而是像 Git 一样,给每个类别或任务维护自己的“分支”,需要的时候再 fetch、再 merge。论文作者发现,这种方式不仅更灵活,而且在增量开放词表检测上效果还真更好,在 ODinW-13 和他们新建的 ODinW-O 上都拿到了 SOTA。1. 这篇论文想解决什么问题?先解释一下背景。传统目标检测一般是“封闭类别”的:猫狗车人这些类别,训练前就定好了。而开放词表检测不一样,它允许你在推理时直接输入文本提示,比如“axolotl(美西螈)”“thermal person(热成像中的人)”,模型也要尽量把目标找出来。这类方法通常建立在视觉-语言预训练模型之上,比如 GLIP、Grounding DINO。问题来了:虽然这类模型零样本泛化很强,但要把它持续用于真实世界,就会遇到一个很烦的事:今天你想让它更会识别“蘑菇”明天你又想增强“热成像中的人”后天又想补一个很少见的新类别很多现有方法的做法是:把新知识继续压进同一套权重里。论文把这种方式叫 monolithic adaptation(单体式适配)。它的问题很像:你把所有项目都写进一个超大的单文件脚本里,短期能跑,长期就会越来越难维护。某个类别想单独升级、回退、删除,都会变得很别扭,而且不同知识之间还可能互相干扰。2. DitHub 的核心想法:别把知识都塞