上周在产线部署缺陷检测模型,遇到个头疼事:新产线只收集到200张标注图,但历史无标签数据有2万张。客户问:“能不能用上那堆没标的数据?” 这问题直接戳中工业场景的痛点——标注成本高、周期长。今天聊聊我们怎么用半监督学习,让YOLO既吃“细粮”也啃“粗粮”。一、从伪标签迭代开始:别指望一步到位刚开始想得太简单:直接用有标签数据训个初始模型,去预测无标签数据,把高置信度的预测框当作真值,混回训练集再训。结果第一轮就崩了——初始模型在无标签数据上误检严重,噪声标签把模型带偏了,mAP掉了5个点。教训:伪标签的质量比数量重要。我们改成了三步迭代法:用有标签数据训练一个“保守模型”(提高置信度阈值,严格数据增强)。对无标签数据做强增强(Mosaic+RandAugment)预测,只保留最高置信度的10%预测框。混合训练时,给伪标签样本设置更低的损失权重(0.3左右)。# 伪标签生成核心片段forunlab_imginunlabeled_dataset:# 强增强版本用于预测
078.半监督学习:利用少量标注数据和大量无标签数据训练YOLO
上周在产线部署缺陷检测模型,遇到个头疼事:新产线只收集到200张标注图,但历史无标签数据有2万张。客户问:“能不能用上那堆没标的数据?” 这问题直接戳中工业场景的痛点——标注成本高、周期长。今天聊聊我们怎么用半监督学习,让YOLO既吃“细粮”也啃“粗粮”。一、从伪标签迭代开始:别指望一步到位刚开始想得太简单:直接用有标签数据训个初始模型,去预测无标签数据,把高置信度的预测框当作真值,混回训练集再训。结果第一轮就崩了——初始模型在无标签数据上误检严重,噪声标签把模型带偏了,mAP掉了5个点。教训:伪标签的质量比数量重要。我们改成了三步迭代法:用有标签数据训练一个“保守模型”(提高置信度阈值,严格数据增强)。对无标签数据做强增强(Mosaic+RandAugment)预测,只保留最高置信度的10%预测框。混合训练时,给伪标签样本设置更低的损失权重(0.3左右)。# 伪标签生成核心片段forunlab_imginunlabeled_dataset:# 强增强版本用于预测