重新标注ImageNet！128万张图像，单标签变多标签！这个预训练模型让COCO暴涨4个点-尧图企业网站定制

ImageNet数据集几乎支撑了整个深度学习时代。但是你有没有想过这样的一个问题当一张照片里同时出现“猎犬”和“汽车”AI应该学到什么那些在ImageNet上训练的模型答案是——只能学到猎犬。汽车不存在的尽管它明明就在图像中而且占据了不少的画面。每张图像仅标注一个类别尽管许多图像描绘了多个物体或概念。这就是统治CV十余年的ImageNet数据集中的单标签问题问题有多严重训练污染不完整的标签带来嘈杂的监督阻碍模型学习真正的视觉表示。评估失真标注员检查图像发现近15%的图像至少包含两个相关类别。性能误解在ImageNet-V2准确率骤降14%但其并非模型退化。而现在罗切斯特大学的研究团队干了件大事他们用一套全自动流程重新标注整个ImageNet训练集共计128万张图像生成了完整的多标签标注并且该流程是通用的可以将其他单标签数据集转换为多标签形式。论文及数据地址https://arxiv.org/pdf/2603.05729原文链接从数据维度入手我们如何前进https://mp.weixin.qq.com/s/8Gv1S0lj1dUhUuNu2_CeZA?token1605914997langzh_CN一、从数据维度入手我们如何前进1. 自动化打标签这套流程能直接用多模态大模型替换吗理论上可行但实践中未必更优。在之前的文章中介绍过GPT-4o等多模态大模型在视觉细粒度任务上结果并不理想。图像中的细微差别需要专门的视觉表征学习而非通用语义理解。2. 本文将Imagnet做成多标签标注还有什么局限最大的问题是仍然框定在1000个固定类别里。图像中出现一只登山靴ImageNet没有这个类。怎么办上述数据训练出的模型只能退而求其次预测跑鞋。虽然语义相关但终究不是正确答案。这就是“封闭词汇”的天花板。未来的方向必然是开放词汇检测——让模型能识别1000类之外的任何物体并用自然语言描述它。3. 瓶颈不在模型而在数据如何破在实际项目中遇到模型性能无法突破不妨停下来想一想你的数据真的对吗你的标签真的反映了真实世界吗更多内容请查阅原文重新标注ImageNet

相关新闻

skynet Monitor 线程详解

sdut-程序设计基础Ⅰ-期末测试（重现）

ROS 2 概念

RTKLIB实战：从数据下载到高精度定位解算全流程解析

正交设计实战指南：从理论到最优方案验证

保姆级教程：在Ubuntu 18.04 + ROS Melodic上搞定Intel RealSense D415深度相机驱动（含固件升级避坑指南）

Java线程状态转换：从源码到实战的并发诊断指南

拆解ARS408雷达协议：如何用C++面向对象思想封装CAN消息（RadarCfg/RadarState详解）

Python异步编程中的上下文管理：Ctxo工具的设计原理与实战应用

AMD Ryzen硬件调试终极指南：SMUDebugTool深度探索与实战应用

Talon语音助手集成AI工具集：代码解释与自动化工作流实战

DLSS Swapper终极指南：5分钟快速上手游戏性能优化神器

【西藏大学主办 | SPIE出版见刊检索有保障 | 稳定EI＆Scopus检索！往届快至会后3个月EI检索 | 国家级人才报告】第五届信号处理与通信安全国际学术会议（ICSPCS 2026）

为团队内部工具统一配置Taotoken多模型API以提升开发效率

XAI赋能老年健康平台：用可解释AI破解数字鸿沟的设计实践

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感