1. 项目概述当深度学习遇见标签模糊性在遥感图像分类特别是像局部气候区LCZ分类这样复杂的任务中我们常常会遇到一个棘手的问题标签本身就不确定。想象一下你拿着一张城市区域的卫星图像交给十位遥感专家让他们判断这片区域属于“紧凑低层建筑”还是“稀疏建筑”结果可能得到好几种不同的答案。这种分歧不是错误而是反映了现实世界的复杂性和人类认知的模糊性。传统的深度学习模型比如我们熟悉的ResNet或VGG在处理这类任务时通常采用“独热编码”的硬标签进行训练。模型的目标是学会将一张图像唯一地、确定地归入某个类别。然而这种“非黑即白”的训练方式强行忽略了数据中固有的、有价值的模糊性信息导致模型可能对边界模糊的样本产生过度自信的预测其输出的“置信度”往往并不可靠。不确定性量化UQ正是为了解决这个问题而生的关键技术。它的核心思想是一个成熟的模型不仅要告诉我们“它预测了什么”还要诚实地告诉我们“它对这个预测有多不确定”。这种不确定性主要分为两类认知不确定性和随机不确定性。认知不确定性源于模型自身知识的不足比如训练数据不够、模型结构不合适这种不确定性可以通过获取更多数据或改进模型来减少。随机不确定性则源于数据本身固有的噪声和模糊性比如传感器噪声、云层遮挡或者——就像我们遇到的——专家标注之间的分歧这种不确定性是固有的、无法消除的。一个优秀的UQ框架应该能同时捕捉并量化这两种不确定性。本文要探讨的正是一种将标签不确定性“喂”给模型的高级玩法标签嵌入。我们不再把一张图像的标签看作一个固定的点比如“类别3”而是看作一个在潜在空间中的分布。这个分布由多个专家的投票信息生成它编码了“这张图更像A类但也有点像B类”的模糊认知。然后我们设计深度学习模型不是去拟合一个硬标签而是去学习这个复杂的、包含不确定性的标签分布。这就像教学生时不仅告诉他标准答案还告诉他其他可能的答案以及各自的合理性从而培养出更稳健、更“谦虚”的思考能力。我们将构建一个三层次的不确定性量化框架从基础的伪概率到灵活的狄利克雷分布再到融合了先验知识的贝叶斯标签嵌入逐层深入并系统评估这些方法在模型校准和分布外检测这两个核心下游任务上的表现。2. 核心原理三层次不确定性量化框架拆解要理解标签嵌入的价值我们首先需要建立一个清晰的不确定性量化层级观念。这个框架如同一个显微镜让我们能逐级审视模型预测的“确信度”。2.1 第一层伪概率不确定性Level-1这是最常见、最基础的一层。对于一个标准的K类分类神经网络输入图像x经过网络前向传播会得到一组未归一化的分数即logits向量h_θ(x) [h1, h2, ..., hK]。我们通常通过softmax函数将其转换为伪概率分布ˆπ(y|x) softmax(h_θ(x)) exp(hk) / Σ exp(hj)其中ˆπk可以被解释为模型认为输入属于第k类的“概率”。模型的最终预测是取概率最大的类别ˆy argmax(ˆπ)。这一层的不确定性通常简单地用1 - max(ˆπ)来表示即模型对最高概率类别的“不确信度”。注意这里称之为“伪概率”是因为它们并非来自严格的概率模型而是softmax归一化的结果。在模型过度自信时即使预测错误max(ˆπ)也可能接近1导致不确定性被严重低估。这是传统深度学习模型校准不佳的根源之一。2.2 第二层狄利克雷分布不确定性Level-2为了获得更丰富、更灵活的不确定性表示我们跳出softmax的范畴将模型的输出空间松弛为一个狄利克雷分布。狄利克雷分布是定义在K维概率单纯形上的一个分布其概率密度函数由一组正参数α (α1, α2, ..., αK) 决定记为Dir(α)。这里的精妙之处在于一个狄利克雷分布的期望E[π] α / Σα正好对应一个分类分布即softmax输出的那种概率向量。但是不同的α参数组合可以产生相同的期望值却对应着完全不同的浓度。浓度参数α0 Σαk是关键α0值越大分布越集中在其期望值附近不确定性低α0值越小分布越分散在整个单纯形上不确定性高。在第二层框架中我们让神经网络直接输出这组α参数通常通过对logits取指数得到α exp(h_θ(x))。这样模型不仅预测了类别的期望概率还通过α参数隐含地预测了该概率的置信度。从这个狄利克雷分布中我们可以推导出多种不确定性度量例如总不确定性用预测分布的熵来表示。随机不确定性用狄利克雷分布下条件熵的期望来表示。认知不确定性用总不确定性减去随机不确定性即互信息来表示。这种方法如先验网络的优势在于它在一个统一的框架内同时建模了认知和随机不确定性。2.3 第三层贝叶斯标签嵌入不确定性Level-3这是本文引入的创新层旨在将数据中固有的标签不确定性直接整合到模型的学习目标中。其核心思想是既然我们有多个专家对同一图像的投票数据Y_i (yi1, yi2, ..., yiK)其中yik是投给类别k的票数我们何不利用这些数据来为每个图像估计一个“真实的”、包含不确定性的标签分布呢我们采用一个经验贝叶斯框架建模假设每个图像的专家投票向量Y_i服从一个以潜在概率向量π_i为参数的多项分布Y_i | π_i ~ Mult(π_i, J)其中J是专家总数。层级先验进一步假设潜在概率向量π_i本身服从一个狄利克雷先验π_i | α_i ~ Dir(α_i)。估计嵌入我们的目标是估计超参数α_i。通过贝叶斯定理我们可以得到给定投票数据后α_i的后验分布。为了便于优化我们通常对α_i取对数得到无约束的嵌入向量Z_i log(α_i)并为其假设一个高斯先验。然后利用马尔可夫链蒙特卡洛MCMC等随机估计算法从所有训练数据的标签信息中迭代地估计出每个图像对应的最优嵌入Ẑ_i。转换为目标最终我们将估计出的Ẑ_i转换回狄利克雷参数ˆα_i exp(Ẑ_i)。这个ˆα_i就是我们的“软标签”或“标签嵌入”它不是一个单一的类别而是一个完整的分布完美编码了该图像上专家共识与分歧的所有信息。至此我们得到了一个强大的学习目标不再是用一个硬标签如[0,0,1,0]去训练网络而是用一个狄利克雷分布Dir(ˆα_i)作为目标。网络的任务就是学习预测一个与之匹配的狄利克雷分布Dir(α_model)。如何衡量两个分布之间的差距自然就引出了下一节的核心损失函数的设计。3. 实操要点损失函数设计与模型训练策略有了标签嵌入作为目标如何指导神经网络去学习它是工程实现的关键。我们主要探讨三种不同的损失函数设计思路它们各有侧重适用于不同的场景。3.1 KL散度损失分布匹配的黄金标准最直接的想法是既然我们的预测和目标都是狄利克雷分布那么最小化它们之间的KL散度就是最自然的选择。两个狄利克雷分布Dir(α)和Dir(β)之间的KL散度有闭合形式的解KL(Dir(α) || Dir(β)) log Γ(α0) - Σ log Γ(αk) - log Γ(β0) Σ log Γ(βk) Σ (αk - βk) * [ψ(αk) - ψ(α0)]其中α0 Σαk,β0 ΣβkΓ是伽马函数ψ是双伽马函数。实操步骤在训练前离线为训练集中每个样本i计算其贝叶斯标签嵌入ˆα_embedding,i。前向传播时网络输出logitsf_θ(x_i)通过α_model,i exp(f_θ(x_i))转换为预测的狄利克雷参数。计算损失L(θ) KL(Dir(α_model,i) || Dir(ˆα_embedding,i))。反向传播更新网络参数θ。心得KL散度损失在理论上是完美的因为它直接最小化预测分布与真实嵌入分布之间的差异。然而在实际训练中需要特别注意数值稳定性。α参数经过指数运算后可能非常大导致伽马函数计算溢出。一个常见的技巧是引入一个“温度”参数t将logits缩放为f_θ(x_i)/t后再取指数训练完成后在推理时再缩放回来。我们在实验中发现t3是一个有效的值。3.2 均方误差损失嵌入空间的直接回归第二种思路更直接既然我们估计出的贝叶斯嵌入Ẑ_i本身是一个连续的、无约束的向量为什么不把神经网络的学习目标设定为直接回归这个向量呢这就将分类问题转化为了一个多输出的回归问题。此时损失函数采用最常用的均方误差L_MSE(θ) Σ_k (Ẑ_i,k - f_θ(x_i)_k)^2这里f_θ(x_i)_k是网络第k个节点的原始输出logits我们让它直接去拟合Ẑ_i,k。优势与挑战优势实现简单计算高效无需处理复杂的狄利克雷函数。挑战MSE损失假设各维度误差独立同分布忽略了标签嵌入向量Ẑ_i各个维度之间可能存在的相关性。例如如果“紧凑低层”和“开放中层”这两个类别的嵌入在潜在空间中本就接近那么预测其中一个时产生的误差对另一个类别的影响应该被考虑进去。MSE损失无法捕捉这种类间结构信息。3.3 马氏距离损失引入协方差结构的回归为了克服MSE的局限性我们引入马氏距离作为损失函数。马氏距离考虑了数据各维度之间的相关性其定义为L_MD(θ) sqrt( (f_θ(x_i) - Ẑ_i)^T * Σ^{-1} * (f_θ(x_i) - Ẑ_i) )其中Σ是标签嵌入向量Ẑ在整个训练集上的经验协方差矩阵。这个协方差矩阵可以在估计嵌入的步骤中一并得到。实操解析在估计贝叶斯嵌入Ẑ_i的同时利用MCMC采样过程中的样本计算所有嵌入向量的协方差矩阵ˆΣ_embedding。训练时计算网络预测f_θ(x_i)与目标嵌入Ẑ_i之间的马氏距离作为损失。马氏距离等价于先将数据投影到一个经过Σ^{-1/2}变换的空间使得各维度去相关且方差归一化然后再计算欧氏距离。这相当于让网络在学习时更关注那些在嵌入空间中方差大的方向类间差异大的方向而忽略方差小的方向类间差异小的方向。注意事项马氏距离损失的性能高度依赖于估计的协方差矩阵Σ的准确性。如果训练数据有限或者嵌入估计算法不稳定Σ可能估计不准甚至接近奇异矩阵求逆时会导致数值问题。在实际应用中往往需要加入一个小的正则化项λI来保证Σ λI的可逆性。3.4 一个重要的基线无信息先验的简单狄利克雷模型除了上述三种基于复杂嵌入的方法论文中还设置了一个强有力的基线模型——简单狄利克雷模型。它不依赖于复杂的贝叶斯嵌入估计而是采用一个非常直观的构造 对于每个样本给定专家投票向量Y_i我们直接设定一个无信息先验常数c例如c1然后根据共轭先验的性质得到后验狄利克雷参数为α_post,k c y_ik然后我们同样使用KL散度损失让网络去学习预测这个α_post分布。这个方法看似简单但其哲学很深刻它承认标签的不确定性通过票数y_ik来体现但又不对这种不确定性做任何复杂的先验假设。在后续的实验中我们会看到这种“简单粗暴”的方法在分布外检测任务上表现异常出色。4. 实验部署与评估校准与OoD检测实战理论再优美也需要实验的验证。我们基于So2Sat LCZ42数据集的一个子集——包含10个欧洲城市、每张图像由10位专家独立标注的评估数据集——来展开实验。我们将17个LCZ类别合并为16类因第7类数据极少且算法不稳定并设计了两种数据划分策略来评估模型。4.1 实验设置与模型对比我们对比了七种不同的训练范式独热编码使用专家多数票作为硬标签交叉熵损失。分布标签使用专家投票的经验分布Y_i / J作为软标签KL散度损失。采样独热每个epoch从专家投票分布中采样一个标签作为硬标签交叉熵损失。简单狄利克雷使用α 1 Y_i作为目标KL散度损失。KL嵌入使用贝叶斯标签嵌入ˆα_i作为目标KL散度损失。MSE嵌入使用贝叶斯嵌入Ẑ_i作为目标均方误差损失。MD嵌入使用贝叶斯嵌入Ẑ_i作为目标马氏距离损失。所有模型均基于Sen2LCZ网络架构保持超参数一致初始学习率2e-4批次大小128最大30轮早停策略等。4.2 模型校准性能深度分析模型校准衡量的是模型预测的“置信度”是否与其“准确率”相匹配。一个校准良好的模型当它说“我有90%的把握”时它的预测应该有90%是正确的。我们使用以下指标进行评估期望校准误差将预测置信度区间[0,1]划分为M个分箱计算每个分箱内平均置信度与准确率之差的加权平均。最大校准误差所有分箱中置信度与准确率之差的最大绝对值。静态校准误差在类别级别计算校准误差对每个类别单独分箱评估。实验结果与解读 下表汇总了关键结果基于论文数据整理模型整体准确率ECE (↓)MCE (↓)SCE (↓)预测与嵌入的KL散度 (↓)独热编码0.7230.1420.4110.1681.892分布标签0.7180.1380.3980.1621.745采样独热0.7010.1490.4230.1711.934简单狄利克雷0.6950.1050.2350.1211.654KL嵌入0.7110.0550.2890.1281.203MSE嵌入0.7060.0610.3010.1301.315MD嵌入0.6980.1320.3850.1591.801核心发现嵌入方法的校准优势基于贝叶斯标签嵌入的模型KL嵌入和MSE嵌入在ECE和SCE上显著优于传统方法。KL嵌入模型将ECE降低了超过60%。这说明让模型学习一个包含不确定性的软目标能有效抑制其过度自信的倾向输出更可靠的置信度。简单狄利克雷的竞争力简单狄利克雷模型在校准方面也表现优异尤其在MCE和SCE上甚至略胜嵌入模型。这表明即使没有复杂的先验估计仅仅将投票信息以狄利克雷参数的形式引入也能极大改善校准。MD嵌入的困境马氏距离嵌入模型表现不佳。我们分析认为嵌入空间的协方差结构可能过于复杂使得回归任务变得困难反而损害了校准性能。准确率的轻微牺牲可以看到校准性能最好的模型其分类准确率相比独热编码基线有轻微下降约1-2个百分点。这是一个典型的准确性-校准性权衡。追求完美的校准有时需要以微小的准确率损失为代价但在许多安全关键应用中一个“知道自己不知道”的可靠模型远比一个盲目自信的模型更有价值。4.3 分布外检测性能剖析分布外检测任务是评估模型不确定性的“试金石”。其核心思想是模型在训练时只见过一部分类别分布内ID在测试时我们会混入它从未见过的其他类别分布外OoD的数据。一个良好的不确定性量化模型应该对ID数据给出低不确定性对OoD数据给出高不确定性。我们设计了两个实验场景场景A建筑类ID 植被类OoD使用建筑类1-10训练用非建筑类A-G测试。场景B植被类ID 建筑类OoD使用非建筑类训练用建筑类测试。我们使用接收者操作特征曲线下面积AUROC和精确率-召回率曲线下面积AUPR作为评估指标数值越高说明模型区分ID/OoD的能力越强。我们测试了多种不确定性度量指标包括最大softmax概率MSP、预测熵、证据深度学习中的Dempster-Shafer度量DSM、期望熵随机不确定性和分布不确定性认知不确定性。关键结果与洞见简单狄利克雷的统治力在OoD检测任务上简单狄利克雷模型展现了压倒性的优势。在场景B中其AUROC高达96.7%远超其他模型。这是因为其无信息先验c1没有对ID数据给予过强的关注使得模型在面对未知的OoD样本时能更“敏感”地产生较高的不确定性。嵌入模型的局限性与校准实验相反基于贝叶斯嵌入的模型在OoD检测上表现平平甚至不如传统模型。原因在于贝叶斯嵌入将数据特定的标签不确定性也编码了进去。模型在学习过程中“吸收”了这种不确定性导致其对ID数据预测的不确定性本身就较高从而与OoD数据的不确定性区分度变小。这揭示了校准和OoD检测这两个任务之间可能存在的内在冲突一个完美拟合了数据固有不确定性的模型其不确定性估计可能不再适合用于检测“未知的未知”。不确定性指标的选择并非所有不确定性指标都适用于OoD检测。例如“证据”和“期望熵”在这些模型上的AUROC甚至低于50%不如随机猜测。MSP和预测熵仍然是实践中最鲁棒、最通用的OoD检测指标。DSM在狄利克雷模型上表现也很好。场景不对称性场景A建筑ID vs 植被OoD的检测难度远高于场景B。所有模型在场景A中的AUROC最高仅约83%。这可能是因为建筑类内部差异大、结构复杂其嵌入本身不确定性就高而植被类相对均匀模型对其预测非常自信因此当建筑类作为OoD时微小的不确定性提升就能被有效检测到。5. 经验总结、避坑指南与未来展望经过一系列实验的洗礼我们对标签嵌入和不确定性量化有了更深刻的理解。以下是一些从实战中提炼出的核心经验和未来可探索的方向。5.1 核心经验与避坑指南明确你的首要目标校准还是OoD检测如果追求极致的模型校准例如在医疗诊断、自动驾驶中需要置信度绝对可靠那么基于KL散度的贝叶斯标签嵌入方法是首选。它能将专家分歧的不确定性有效传递给模型产出概率解释性极强的预测。如果首要任务是分布外检测或异常发现例如在监控系统中发现未知物体那么简单狄利克雷模型往往是更好的选择。它的无信息先验使其对未知样本保持“警惕”能产生更具区分度的不确定性信号。鱼与熊掌难以兼得我们的实验表明在这两个任务上取得同时最优是困难的。需要在设计系统时进行权衡。实现中的数值稳定性是头等大事温度缩放必不可少直接对logits取指数得到α参数极易导致数值溢出特别是使用FP16混合精度训练时。务必引入温度参数t在训练阶段对logits进行缩放α exp(logits / t)在推理阶段再缩放回来。t2到t5是常见的搜索范围。防止零参数狄利克雷参数必须为正数。在计算KL散度或采样时如果α参数过小或为零会导致伽马或贝塔函数计算错误。一个简单的技巧是为所有α加上一个极小的正数ϵ如1e-8。协方差矩阵的逆如果使用马氏距离损失计算经验协方差矩阵Σ的逆矩阵前必须检查其条件数。通常需要添加一个小的正则化项λIλ可取1e-6到1e-4即计算(Σ λI)^{-1}以确保数值稳定。标签嵌入估计的质量是瓶颈贝叶斯标签嵌入的性能完全依赖于离线估计步骤的准确性。如果专家投票数据质量差例如专家水平参差不齐、标注指南模糊或者MCMC采样没有充分收敛估计出的嵌入将是不可靠的甚至会误导模型。建议在投入训练前务必可视化检查嵌入结果。例如可以在潜在空间如通过PCA或t-SNE降维中绘制不同类别的嵌入点观察同类样本是否聚集不同类是否分离以及嵌入的分布是否合理。不要迷信复杂的损失函数马氏距离损失在理论上考虑了类间相关性但实际效果可能不如简单的MSE或KL散度。这往往是因为估计的协方差矩阵不能很好地代表真实的类间结构或者这种结构对于分类任务本身并非最关键的因素。实践建议始终将KL散度损失作为一个强基线。它理论坚实实现相对稳定在大多数情况下都能提供优秀或可接受的结果。5.2 未来扩展与研究方向超越投票融合语义信息的嵌入当前的标签嵌入完全依赖于人工投票数据。一个有趣的方向是引入图像的语义信息来辅助或生成嵌入。例如可以利用无监督或自监督学习如CLIP、SimCLR为图像提取特征然后与投票信息共同学习一个联合嵌入空间。这样即使某些样本缺乏专家投票也能根据其视觉语义获得合理的嵌入。动态与个性化的嵌入目前的嵌入是静态的、每个样本固定的。可以考虑开发动态嵌入网络该网络能够根据输入图像的内容自适应地调整或生成其标签嵌入。这类似于“条件先验”让模型对不同的输入采用不同置信度的学习目标。面向更广泛噪声标签的泛化本文框架基于多专家投票这种特殊的“噪声”形式。未来研究可以测试其在其他类型噪声标签如众包标注、自动生成的弱标签、部分标注上的泛化能力。核心在于如何为不同类型的标签噪声设计合适的生成模型似然函数和先验。与主动学习、持续学习的结合高质量的不确定性估计是主动学习的核心驱动力。将本文的标签嵌入框架与主动学习结合可以在标注成本有限的情况下优先选择那些标签不确定性高即专家分歧大且模型认知不确定性高的样本进行标注从而实现标注效益的最大化。同样在持续学习场景中模型对旧任务预测的不确定性可以用来防止灾难性遗忘。最终这项工作的价值在于它提供了一种范式转变从要求模型“猜对答案”到训练模型“理解问题的模糊性并表达自己的确信程度”。在遥感乃至更广泛的AI应用领域当数据本身充满歧义时这种能够量化并表达不确定性的智能或许才是通向真正可靠决策系统的关键一步。
深度学习不确定性量化:从标签模糊性到贝叶斯标签嵌入的实践指南
1. 项目概述当深度学习遇见标签模糊性在遥感图像分类特别是像局部气候区LCZ分类这样复杂的任务中我们常常会遇到一个棘手的问题标签本身就不确定。想象一下你拿着一张城市区域的卫星图像交给十位遥感专家让他们判断这片区域属于“紧凑低层建筑”还是“稀疏建筑”结果可能得到好几种不同的答案。这种分歧不是错误而是反映了现实世界的复杂性和人类认知的模糊性。传统的深度学习模型比如我们熟悉的ResNet或VGG在处理这类任务时通常采用“独热编码”的硬标签进行训练。模型的目标是学会将一张图像唯一地、确定地归入某个类别。然而这种“非黑即白”的训练方式强行忽略了数据中固有的、有价值的模糊性信息导致模型可能对边界模糊的样本产生过度自信的预测其输出的“置信度”往往并不可靠。不确定性量化UQ正是为了解决这个问题而生的关键技术。它的核心思想是一个成熟的模型不仅要告诉我们“它预测了什么”还要诚实地告诉我们“它对这个预测有多不确定”。这种不确定性主要分为两类认知不确定性和随机不确定性。认知不确定性源于模型自身知识的不足比如训练数据不够、模型结构不合适这种不确定性可以通过获取更多数据或改进模型来减少。随机不确定性则源于数据本身固有的噪声和模糊性比如传感器噪声、云层遮挡或者——就像我们遇到的——专家标注之间的分歧这种不确定性是固有的、无法消除的。一个优秀的UQ框架应该能同时捕捉并量化这两种不确定性。本文要探讨的正是一种将标签不确定性“喂”给模型的高级玩法标签嵌入。我们不再把一张图像的标签看作一个固定的点比如“类别3”而是看作一个在潜在空间中的分布。这个分布由多个专家的投票信息生成它编码了“这张图更像A类但也有点像B类”的模糊认知。然后我们设计深度学习模型不是去拟合一个硬标签而是去学习这个复杂的、包含不确定性的标签分布。这就像教学生时不仅告诉他标准答案还告诉他其他可能的答案以及各自的合理性从而培养出更稳健、更“谦虚”的思考能力。我们将构建一个三层次的不确定性量化框架从基础的伪概率到灵活的狄利克雷分布再到融合了先验知识的贝叶斯标签嵌入逐层深入并系统评估这些方法在模型校准和分布外检测这两个核心下游任务上的表现。2. 核心原理三层次不确定性量化框架拆解要理解标签嵌入的价值我们首先需要建立一个清晰的不确定性量化层级观念。这个框架如同一个显微镜让我们能逐级审视模型预测的“确信度”。2.1 第一层伪概率不确定性Level-1这是最常见、最基础的一层。对于一个标准的K类分类神经网络输入图像x经过网络前向传播会得到一组未归一化的分数即logits向量h_θ(x) [h1, h2, ..., hK]。我们通常通过softmax函数将其转换为伪概率分布ˆπ(y|x) softmax(h_θ(x)) exp(hk) / Σ exp(hj)其中ˆπk可以被解释为模型认为输入属于第k类的“概率”。模型的最终预测是取概率最大的类别ˆy argmax(ˆπ)。这一层的不确定性通常简单地用1 - max(ˆπ)来表示即模型对最高概率类别的“不确信度”。注意这里称之为“伪概率”是因为它们并非来自严格的概率模型而是softmax归一化的结果。在模型过度自信时即使预测错误max(ˆπ)也可能接近1导致不确定性被严重低估。这是传统深度学习模型校准不佳的根源之一。2.2 第二层狄利克雷分布不确定性Level-2为了获得更丰富、更灵活的不确定性表示我们跳出softmax的范畴将模型的输出空间松弛为一个狄利克雷分布。狄利克雷分布是定义在K维概率单纯形上的一个分布其概率密度函数由一组正参数α (α1, α2, ..., αK) 决定记为Dir(α)。这里的精妙之处在于一个狄利克雷分布的期望E[π] α / Σα正好对应一个分类分布即softmax输出的那种概率向量。但是不同的α参数组合可以产生相同的期望值却对应着完全不同的浓度。浓度参数α0 Σαk是关键α0值越大分布越集中在其期望值附近不确定性低α0值越小分布越分散在整个单纯形上不确定性高。在第二层框架中我们让神经网络直接输出这组α参数通常通过对logits取指数得到α exp(h_θ(x))。这样模型不仅预测了类别的期望概率还通过α参数隐含地预测了该概率的置信度。从这个狄利克雷分布中我们可以推导出多种不确定性度量例如总不确定性用预测分布的熵来表示。随机不确定性用狄利克雷分布下条件熵的期望来表示。认知不确定性用总不确定性减去随机不确定性即互信息来表示。这种方法如先验网络的优势在于它在一个统一的框架内同时建模了认知和随机不确定性。2.3 第三层贝叶斯标签嵌入不确定性Level-3这是本文引入的创新层旨在将数据中固有的标签不确定性直接整合到模型的学习目标中。其核心思想是既然我们有多个专家对同一图像的投票数据Y_i (yi1, yi2, ..., yiK)其中yik是投给类别k的票数我们何不利用这些数据来为每个图像估计一个“真实的”、包含不确定性的标签分布呢我们采用一个经验贝叶斯框架建模假设每个图像的专家投票向量Y_i服从一个以潜在概率向量π_i为参数的多项分布Y_i | π_i ~ Mult(π_i, J)其中J是专家总数。层级先验进一步假设潜在概率向量π_i本身服从一个狄利克雷先验π_i | α_i ~ Dir(α_i)。估计嵌入我们的目标是估计超参数α_i。通过贝叶斯定理我们可以得到给定投票数据后α_i的后验分布。为了便于优化我们通常对α_i取对数得到无约束的嵌入向量Z_i log(α_i)并为其假设一个高斯先验。然后利用马尔可夫链蒙特卡洛MCMC等随机估计算法从所有训练数据的标签信息中迭代地估计出每个图像对应的最优嵌入Ẑ_i。转换为目标最终我们将估计出的Ẑ_i转换回狄利克雷参数ˆα_i exp(Ẑ_i)。这个ˆα_i就是我们的“软标签”或“标签嵌入”它不是一个单一的类别而是一个完整的分布完美编码了该图像上专家共识与分歧的所有信息。至此我们得到了一个强大的学习目标不再是用一个硬标签如[0,0,1,0]去训练网络而是用一个狄利克雷分布Dir(ˆα_i)作为目标。网络的任务就是学习预测一个与之匹配的狄利克雷分布Dir(α_model)。如何衡量两个分布之间的差距自然就引出了下一节的核心损失函数的设计。3. 实操要点损失函数设计与模型训练策略有了标签嵌入作为目标如何指导神经网络去学习它是工程实现的关键。我们主要探讨三种不同的损失函数设计思路它们各有侧重适用于不同的场景。3.1 KL散度损失分布匹配的黄金标准最直接的想法是既然我们的预测和目标都是狄利克雷分布那么最小化它们之间的KL散度就是最自然的选择。两个狄利克雷分布Dir(α)和Dir(β)之间的KL散度有闭合形式的解KL(Dir(α) || Dir(β)) log Γ(α0) - Σ log Γ(αk) - log Γ(β0) Σ log Γ(βk) Σ (αk - βk) * [ψ(αk) - ψ(α0)]其中α0 Σαk,β0 ΣβkΓ是伽马函数ψ是双伽马函数。实操步骤在训练前离线为训练集中每个样本i计算其贝叶斯标签嵌入ˆα_embedding,i。前向传播时网络输出logitsf_θ(x_i)通过α_model,i exp(f_θ(x_i))转换为预测的狄利克雷参数。计算损失L(θ) KL(Dir(α_model,i) || Dir(ˆα_embedding,i))。反向传播更新网络参数θ。心得KL散度损失在理论上是完美的因为它直接最小化预测分布与真实嵌入分布之间的差异。然而在实际训练中需要特别注意数值稳定性。α参数经过指数运算后可能非常大导致伽马函数计算溢出。一个常见的技巧是引入一个“温度”参数t将logits缩放为f_θ(x_i)/t后再取指数训练完成后在推理时再缩放回来。我们在实验中发现t3是一个有效的值。3.2 均方误差损失嵌入空间的直接回归第二种思路更直接既然我们估计出的贝叶斯嵌入Ẑ_i本身是一个连续的、无约束的向量为什么不把神经网络的学习目标设定为直接回归这个向量呢这就将分类问题转化为了一个多输出的回归问题。此时损失函数采用最常用的均方误差L_MSE(θ) Σ_k (Ẑ_i,k - f_θ(x_i)_k)^2这里f_θ(x_i)_k是网络第k个节点的原始输出logits我们让它直接去拟合Ẑ_i,k。优势与挑战优势实现简单计算高效无需处理复杂的狄利克雷函数。挑战MSE损失假设各维度误差独立同分布忽略了标签嵌入向量Ẑ_i各个维度之间可能存在的相关性。例如如果“紧凑低层”和“开放中层”这两个类别的嵌入在潜在空间中本就接近那么预测其中一个时产生的误差对另一个类别的影响应该被考虑进去。MSE损失无法捕捉这种类间结构信息。3.3 马氏距离损失引入协方差结构的回归为了克服MSE的局限性我们引入马氏距离作为损失函数。马氏距离考虑了数据各维度之间的相关性其定义为L_MD(θ) sqrt( (f_θ(x_i) - Ẑ_i)^T * Σ^{-1} * (f_θ(x_i) - Ẑ_i) )其中Σ是标签嵌入向量Ẑ在整个训练集上的经验协方差矩阵。这个协方差矩阵可以在估计嵌入的步骤中一并得到。实操解析在估计贝叶斯嵌入Ẑ_i的同时利用MCMC采样过程中的样本计算所有嵌入向量的协方差矩阵ˆΣ_embedding。训练时计算网络预测f_θ(x_i)与目标嵌入Ẑ_i之间的马氏距离作为损失。马氏距离等价于先将数据投影到一个经过Σ^{-1/2}变换的空间使得各维度去相关且方差归一化然后再计算欧氏距离。这相当于让网络在学习时更关注那些在嵌入空间中方差大的方向类间差异大的方向而忽略方差小的方向类间差异小的方向。注意事项马氏距离损失的性能高度依赖于估计的协方差矩阵Σ的准确性。如果训练数据有限或者嵌入估计算法不稳定Σ可能估计不准甚至接近奇异矩阵求逆时会导致数值问题。在实际应用中往往需要加入一个小的正则化项λI来保证Σ λI的可逆性。3.4 一个重要的基线无信息先验的简单狄利克雷模型除了上述三种基于复杂嵌入的方法论文中还设置了一个强有力的基线模型——简单狄利克雷模型。它不依赖于复杂的贝叶斯嵌入估计而是采用一个非常直观的构造 对于每个样本给定专家投票向量Y_i我们直接设定一个无信息先验常数c例如c1然后根据共轭先验的性质得到后验狄利克雷参数为α_post,k c y_ik然后我们同样使用KL散度损失让网络去学习预测这个α_post分布。这个方法看似简单但其哲学很深刻它承认标签的不确定性通过票数y_ik来体现但又不对这种不确定性做任何复杂的先验假设。在后续的实验中我们会看到这种“简单粗暴”的方法在分布外检测任务上表现异常出色。4. 实验部署与评估校准与OoD检测实战理论再优美也需要实验的验证。我们基于So2Sat LCZ42数据集的一个子集——包含10个欧洲城市、每张图像由10位专家独立标注的评估数据集——来展开实验。我们将17个LCZ类别合并为16类因第7类数据极少且算法不稳定并设计了两种数据划分策略来评估模型。4.1 实验设置与模型对比我们对比了七种不同的训练范式独热编码使用专家多数票作为硬标签交叉熵损失。分布标签使用专家投票的经验分布Y_i / J作为软标签KL散度损失。采样独热每个epoch从专家投票分布中采样一个标签作为硬标签交叉熵损失。简单狄利克雷使用α 1 Y_i作为目标KL散度损失。KL嵌入使用贝叶斯标签嵌入ˆα_i作为目标KL散度损失。MSE嵌入使用贝叶斯嵌入Ẑ_i作为目标均方误差损失。MD嵌入使用贝叶斯嵌入Ẑ_i作为目标马氏距离损失。所有模型均基于Sen2LCZ网络架构保持超参数一致初始学习率2e-4批次大小128最大30轮早停策略等。4.2 模型校准性能深度分析模型校准衡量的是模型预测的“置信度”是否与其“准确率”相匹配。一个校准良好的模型当它说“我有90%的把握”时它的预测应该有90%是正确的。我们使用以下指标进行评估期望校准误差将预测置信度区间[0,1]划分为M个分箱计算每个分箱内平均置信度与准确率之差的加权平均。最大校准误差所有分箱中置信度与准确率之差的最大绝对值。静态校准误差在类别级别计算校准误差对每个类别单独分箱评估。实验结果与解读 下表汇总了关键结果基于论文数据整理模型整体准确率ECE (↓)MCE (↓)SCE (↓)预测与嵌入的KL散度 (↓)独热编码0.7230.1420.4110.1681.892分布标签0.7180.1380.3980.1621.745采样独热0.7010.1490.4230.1711.934简单狄利克雷0.6950.1050.2350.1211.654KL嵌入0.7110.0550.2890.1281.203MSE嵌入0.7060.0610.3010.1301.315MD嵌入0.6980.1320.3850.1591.801核心发现嵌入方法的校准优势基于贝叶斯标签嵌入的模型KL嵌入和MSE嵌入在ECE和SCE上显著优于传统方法。KL嵌入模型将ECE降低了超过60%。这说明让模型学习一个包含不确定性的软目标能有效抑制其过度自信的倾向输出更可靠的置信度。简单狄利克雷的竞争力简单狄利克雷模型在校准方面也表现优异尤其在MCE和SCE上甚至略胜嵌入模型。这表明即使没有复杂的先验估计仅仅将投票信息以狄利克雷参数的形式引入也能极大改善校准。MD嵌入的困境马氏距离嵌入模型表现不佳。我们分析认为嵌入空间的协方差结构可能过于复杂使得回归任务变得困难反而损害了校准性能。准确率的轻微牺牲可以看到校准性能最好的模型其分类准确率相比独热编码基线有轻微下降约1-2个百分点。这是一个典型的准确性-校准性权衡。追求完美的校准有时需要以微小的准确率损失为代价但在许多安全关键应用中一个“知道自己不知道”的可靠模型远比一个盲目自信的模型更有价值。4.3 分布外检测性能剖析分布外检测任务是评估模型不确定性的“试金石”。其核心思想是模型在训练时只见过一部分类别分布内ID在测试时我们会混入它从未见过的其他类别分布外OoD的数据。一个良好的不确定性量化模型应该对ID数据给出低不确定性对OoD数据给出高不确定性。我们设计了两个实验场景场景A建筑类ID 植被类OoD使用建筑类1-10训练用非建筑类A-G测试。场景B植被类ID 建筑类OoD使用非建筑类训练用建筑类测试。我们使用接收者操作特征曲线下面积AUROC和精确率-召回率曲线下面积AUPR作为评估指标数值越高说明模型区分ID/OoD的能力越强。我们测试了多种不确定性度量指标包括最大softmax概率MSP、预测熵、证据深度学习中的Dempster-Shafer度量DSM、期望熵随机不确定性和分布不确定性认知不确定性。关键结果与洞见简单狄利克雷的统治力在OoD检测任务上简单狄利克雷模型展现了压倒性的优势。在场景B中其AUROC高达96.7%远超其他模型。这是因为其无信息先验c1没有对ID数据给予过强的关注使得模型在面对未知的OoD样本时能更“敏感”地产生较高的不确定性。嵌入模型的局限性与校准实验相反基于贝叶斯嵌入的模型在OoD检测上表现平平甚至不如传统模型。原因在于贝叶斯嵌入将数据特定的标签不确定性也编码了进去。模型在学习过程中“吸收”了这种不确定性导致其对ID数据预测的不确定性本身就较高从而与OoD数据的不确定性区分度变小。这揭示了校准和OoD检测这两个任务之间可能存在的内在冲突一个完美拟合了数据固有不确定性的模型其不确定性估计可能不再适合用于检测“未知的未知”。不确定性指标的选择并非所有不确定性指标都适用于OoD检测。例如“证据”和“期望熵”在这些模型上的AUROC甚至低于50%不如随机猜测。MSP和预测熵仍然是实践中最鲁棒、最通用的OoD检测指标。DSM在狄利克雷模型上表现也很好。场景不对称性场景A建筑ID vs 植被OoD的检测难度远高于场景B。所有模型在场景A中的AUROC最高仅约83%。这可能是因为建筑类内部差异大、结构复杂其嵌入本身不确定性就高而植被类相对均匀模型对其预测非常自信因此当建筑类作为OoD时微小的不确定性提升就能被有效检测到。5. 经验总结、避坑指南与未来展望经过一系列实验的洗礼我们对标签嵌入和不确定性量化有了更深刻的理解。以下是一些从实战中提炼出的核心经验和未来可探索的方向。5.1 核心经验与避坑指南明确你的首要目标校准还是OoD检测如果追求极致的模型校准例如在医疗诊断、自动驾驶中需要置信度绝对可靠那么基于KL散度的贝叶斯标签嵌入方法是首选。它能将专家分歧的不确定性有效传递给模型产出概率解释性极强的预测。如果首要任务是分布外检测或异常发现例如在监控系统中发现未知物体那么简单狄利克雷模型往往是更好的选择。它的无信息先验使其对未知样本保持“警惕”能产生更具区分度的不确定性信号。鱼与熊掌难以兼得我们的实验表明在这两个任务上取得同时最优是困难的。需要在设计系统时进行权衡。实现中的数值稳定性是头等大事温度缩放必不可少直接对logits取指数得到α参数极易导致数值溢出特别是使用FP16混合精度训练时。务必引入温度参数t在训练阶段对logits进行缩放α exp(logits / t)在推理阶段再缩放回来。t2到t5是常见的搜索范围。防止零参数狄利克雷参数必须为正数。在计算KL散度或采样时如果α参数过小或为零会导致伽马或贝塔函数计算错误。一个简单的技巧是为所有α加上一个极小的正数ϵ如1e-8。协方差矩阵的逆如果使用马氏距离损失计算经验协方差矩阵Σ的逆矩阵前必须检查其条件数。通常需要添加一个小的正则化项λIλ可取1e-6到1e-4即计算(Σ λI)^{-1}以确保数值稳定。标签嵌入估计的质量是瓶颈贝叶斯标签嵌入的性能完全依赖于离线估计步骤的准确性。如果专家投票数据质量差例如专家水平参差不齐、标注指南模糊或者MCMC采样没有充分收敛估计出的嵌入将是不可靠的甚至会误导模型。建议在投入训练前务必可视化检查嵌入结果。例如可以在潜在空间如通过PCA或t-SNE降维中绘制不同类别的嵌入点观察同类样本是否聚集不同类是否分离以及嵌入的分布是否合理。不要迷信复杂的损失函数马氏距离损失在理论上考虑了类间相关性但实际效果可能不如简单的MSE或KL散度。这往往是因为估计的协方差矩阵不能很好地代表真实的类间结构或者这种结构对于分类任务本身并非最关键的因素。实践建议始终将KL散度损失作为一个强基线。它理论坚实实现相对稳定在大多数情况下都能提供优秀或可接受的结果。5.2 未来扩展与研究方向超越投票融合语义信息的嵌入当前的标签嵌入完全依赖于人工投票数据。一个有趣的方向是引入图像的语义信息来辅助或生成嵌入。例如可以利用无监督或自监督学习如CLIP、SimCLR为图像提取特征然后与投票信息共同学习一个联合嵌入空间。这样即使某些样本缺乏专家投票也能根据其视觉语义获得合理的嵌入。动态与个性化的嵌入目前的嵌入是静态的、每个样本固定的。可以考虑开发动态嵌入网络该网络能够根据输入图像的内容自适应地调整或生成其标签嵌入。这类似于“条件先验”让模型对不同的输入采用不同置信度的学习目标。面向更广泛噪声标签的泛化本文框架基于多专家投票这种特殊的“噪声”形式。未来研究可以测试其在其他类型噪声标签如众包标注、自动生成的弱标签、部分标注上的泛化能力。核心在于如何为不同类型的标签噪声设计合适的生成模型似然函数和先验。与主动学习、持续学习的结合高质量的不确定性估计是主动学习的核心驱动力。将本文的标签嵌入框架与主动学习结合可以在标注成本有限的情况下优先选择那些标签不确定性高即专家分歧大且模型认知不确定性高的样本进行标注从而实现标注效益的最大化。同样在持续学习场景中模型对旧任务预测的不确定性可以用来防止灾难性遗忘。最终这项工作的价值在于它提供了一种范式转变从要求模型“猜对答案”到训练模型“理解问题的模糊性并表达自己的确信程度”。在遥感乃至更广泛的AI应用领域当数据本身充满歧义时这种能够量化并表达不确定性的智能或许才是通向真正可靠决策系统的关键一步。