Pytorch图像去噪实战(九十三):数据集版本管理实战,保证每次训练数据可追溯、可回滚

Pytorch图像去噪实战(九十三):数据集版本管理实战,保证每次训练数据可追溯、可回滚 Pytorch图像去噪实战(九十三):数据集版本管理实战,保证每次训练数据可追溯、可回滚一、问题场景:模型效果变好了,但不知道用了哪批数据训练图像去噪项目进入迭代阶段后,数据会不断变化:新增用户反馈样本新增真实噪声数据删除低质量图片加入OCR场景样本加入低光样本修正错误GT删除重复图如果没有数据集版本管理,很快会出现:同样代码、同样参数,重新训练结果却不一样。原因可能是数据变了。这一篇我们解决:如何给图像去噪训练数据做版本管理,保证每次训练可追溯、可复现、可回滚。二、为什么数据版本比代码版本更重要?深度学习项目中,模型结果由三部分决定:代码 + 配置 + 数据很多人只管理代码和配置,却忽略数据。但图像去噪中,数据变化影响极大:clean 数据质量变化hard cases 占比变化噪声类型变化低光样本增加/