文章主要内容和创新点总结一、主要内容问题提出:指出深度学习中存在一种被忽视的标签噪声类型——子类主导标签噪声(SDN),其特征是错误标记的样本在至少一个子类中占主导地位,这类噪声在真实数据集(如Clothing1M、WebVision)中普遍存在(例如无胡须的斯芬克斯猫被大量误标为狗)。核心挑战:传统基于记忆效应的方法(如早停法)对SDN失效,因为深度神经网络在训练早期会快速记忆SDN中的错误标记样本,难以通过早停筛选可信样本;而基于噪声建模的方法因依赖难以满足的假设(如准确估计转移矩阵),也无法有效处理SDN。关键发现:长时间训练得到的特征表示(long-trained representations)能更好地捕捉错误标记样本的高层语义,呈现聚类效应——语义相似的样本会聚集在一起,这为识别和修正SDN提供了基础。方法提出:设计了NoiseCluster方法,核心分为两步:识别潜在错误样本:通过晚停法(later stopping)获取网络倒数第二层的特征,用基于密度的DBSCAN算法聚类,将最大聚类簇视为干净样本,其余为潜在错误样本;标签修正:采用集合距离(set distance)计算潜在错误样本簇与其他类的相似度,将其重新分配给最相似类的标签。扩展与优化:NoiseCluster可与半监督学习(SSL)结合(
2025_NIPS_Subclass-Dominant Label Noise: A Counterexample for the Success of Early Stopping
文章主要内容和创新点总结一、主要内容问题提出:指出深度学习中存在一种被忽视的标签噪声类型——子类主导标签噪声(SDN),其特征是错误标记的样本在至少一个子类中占主导地位,这类噪声在真实数据集(如Clothing1M、WebVision)中普遍存在(例如无胡须的斯芬克斯猫被大量误标为狗)。核心挑战:传统基于记忆效应的方法(如早停法)对SDN失效,因为深度神经网络在训练早期会快速记忆SDN中的错误标记样本,难以通过早停筛选可信样本;而基于噪声建模的方法因依赖难以满足的假设(如准确估计转移矩阵),也无法有效处理SDN。关键发现:长时间训练得到的特征表示(long-trained representations)能更好地捕捉错误标记样本的高层语义,呈现聚类效应——语义相似的样本会聚集在一起,这为识别和修正SDN提供了基础。方法提出:设计了NoiseCluster方法,核心分为两步:识别潜在错误样本:通过晚停法(later stopping)获取网络倒数第二层的特征,用基于密度的DBSCAN算法聚类,将最大聚类簇视为干净样本,其余为潜在错误样本;标签修正:采用集合距离(set distance)计算潜在错误样本簇与其他类的相似度,将其重新分配给最相似类的标签。扩展与优化:NoiseCluster可与半监督学习(SSL)结合(