2025_NIPS_Subclass-Dominant Label Noise: A Counterexample for the Success of Early Stopping

发布时间：2026/5/18 22:37:29

2025_NIPS_Subclass-Dominant Label Noise: A Counterexample for the Success of Early Stopping

文章主要内容和创新点总结一、主要内容问题提出：指出深度学习中存在一种被忽视的标签噪声类型——子类主导标签噪声（SDN），其特征是错误标记的样本在至少一个子类中占主导地位，这类噪声在真实数据集（如Clothing1M、WebVision）中普遍存在（例如无胡须的斯芬克斯猫被大量误标为狗）。核心挑战：传统基于记忆效应的方法（如早停法）对SDN失效，因为深度神经网络在训练早期会快速记忆SDN中的错误标记样本，难以通过早停筛选可信样本；而基于噪声建模的方法因依赖难以满足的假设（如准确估计转移矩阵），也无法有效处理SDN。关键发现：长时间训练得到的特征表示（long-trained representations）能更好地捕捉错误标记样本的高层语义，呈现聚类效应——语义相似的样本会聚集在一起，这为识别和修正SDN提供了基础。方法提出：设计了NoiseCluster方法，核心分为两步：识别潜在错误样本：通过晚停法（later stopping）获取网络倒数第二层的特征，用基于密度的DBSCAN算法聚类，将最大聚类簇视为干净样本，其余为潜在错误样本；标签修正：采用集合距离（set distance）计算潜在错误样本簇与其他类的相似度，将其重新分配给最相似类的标签。扩展与优化：NoiseCluster可与半监督学习（SSL）结合（