ImageNet数据集几乎支撑了整个深度学习时代。但是你有没有想过这样的一个问题当一张照片里同时出现“猎犬”和“汽车”AI应该学到什么那些在ImageNet上训练的模型答案是——只能学到猎犬。汽车不存在的尽管它明明就在图像中而且占据了不少的画面。每张图像仅标注一个类别尽管许多图像描绘了多个物体或概念。这就是统治CV十余年的ImageNet数据集中的单标签问题问题有多严重训练污染不完整的标签带来嘈杂的监督阻碍模型学习真正的视觉表示。评估失真标注员检查图像发现近15%的图像至少包含两个相关类别。性能误解在ImageNet-V2准确率骤降14%但其并非模型退化。而现在罗切斯特大学的研究团队干了件大事他们用一套全自动流程重新标注整个ImageNet训练集共计128万张图像生成了完整的多标签标注并且该流程是通用的可以将其他单标签数据集转换为多标签形式。论文及数据地址https://arxiv.org/pdf/2603.05729原文链接从数据维度入手我们如何前进https://mp.weixin.qq.com/s/8Gv1S0lj1dUhUuNu2_CeZA?token1605914997langzh_CN一、从数据维度入手我们如何前进1. 自动化打标签这套流程能直接用多模态大模型替换吗理论上可行但实践中未必更优。在之前的文章中介绍过GPT-4o等多模态大模型在视觉细粒度任务上结果并不理想。图像中的细微差别需要专门的视觉表征学习而非通用语义理解。2. 本文将Imagnet做成多标签标注还有什么局限最大的问题是仍然框定在1000个固定类别里。图像中出现一只登山靴ImageNet没有这个类。怎么办上述数据训练出的模型只能退而求其次预测跑鞋。虽然语义相关但终究不是正确答案。这就是“封闭词汇”的天花板。未来的方向必然是开放词汇检测——让模型能识别1000类之外的任何物体并用自然语言描述它。3. 瓶颈不在模型而在数据如何破在实际项目中遇到模型性能无法突破不妨停下来想一想你的数据真的对吗你的标签真的反映了真实世界吗更多内容请查阅原文重新标注ImageNet
重新标注ImageNet!128万张图像,单标签变多标签!这个预训练模型让COCO暴涨4个点
ImageNet数据集几乎支撑了整个深度学习时代。但是你有没有想过这样的一个问题当一张照片里同时出现“猎犬”和“汽车”AI应该学到什么那些在ImageNet上训练的模型答案是——只能学到猎犬。汽车不存在的尽管它明明就在图像中而且占据了不少的画面。每张图像仅标注一个类别尽管许多图像描绘了多个物体或概念。这就是统治CV十余年的ImageNet数据集中的单标签问题问题有多严重训练污染不完整的标签带来嘈杂的监督阻碍模型学习真正的视觉表示。评估失真标注员检查图像发现近15%的图像至少包含两个相关类别。性能误解在ImageNet-V2准确率骤降14%但其并非模型退化。而现在罗切斯特大学的研究团队干了件大事他们用一套全自动流程重新标注整个ImageNet训练集共计128万张图像生成了完整的多标签标注并且该流程是通用的可以将其他单标签数据集转换为多标签形式。论文及数据地址https://arxiv.org/pdf/2603.05729原文链接从数据维度入手我们如何前进https://mp.weixin.qq.com/s/8Gv1S0lj1dUhUuNu2_CeZA?token1605914997langzh_CN一、从数据维度入手我们如何前进1. 自动化打标签这套流程能直接用多模态大模型替换吗理论上可行但实践中未必更优。在之前的文章中介绍过GPT-4o等多模态大模型在视觉细粒度任务上结果并不理想。图像中的细微差别需要专门的视觉表征学习而非通用语义理解。2. 本文将Imagnet做成多标签标注还有什么局限最大的问题是仍然框定在1000个固定类别里。图像中出现一只登山靴ImageNet没有这个类。怎么办上述数据训练出的模型只能退而求其次预测跑鞋。虽然语义相关但终究不是正确答案。这就是“封闭词汇”的天花板。未来的方向必然是开放词汇检测——让模型能识别1000类之外的任何物体并用自然语言描述它。3. 瓶颈不在模型而在数据如何破在实际项目中遇到模型性能无法突破不妨停下来想一想你的数据真的对吗你的标签真的反映了真实世界吗更多内容请查阅原文重新标注ImageNet