大语言模型能够生成看似可信但实际不准确的回应因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示观察模型是否生成相同答案。但这种方法测量的是自信度即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断在医疗或金融等高风险领域可能导致严重后果。为解决这一不足麻省理工学院研究人员引入了一种新方法用于测量不同类型的不确定性能更可靠地识别自信但错误的大语言模型回应。他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。研究团队将他们的方法与大语言模型自一致性测量相结合创建了总不确定性指标并在10项实际任务中进行评估包括问答和数学推理。这一总不确定性指标持续优于其他测量方法更擅长识别不可靠的预测。麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示自一致性被广泛应用于不确定性量化的不同方法中但如果你的不确定性估计仅依赖单一模型的结果就不一定可信。我们回到起点理解当前方法的局限性并以此为出发点设计了一种补充方法能够在实证上改善结果。理解过度自信现象许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性即模型对自身预测的内部信心程度。然而大语言模型在完全错误时也可能表现自信。研究表明当模型过度自信时认知不确定性即是否使用正确模型的不确定性可能是评估真实不确定性的更好方式。麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。Hamidieh解释道如果我多次向ChatGPT问同一个问题它反复给出相同答案这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案这会让我感受到认知不确定性。认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型研究人员使用的替代品或近似方法往往依赖有缺陷的假设。为改进不确定性量化麻省理工学院研究人员需要更准确的认知不确定性估计方法。集成方法他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现比较语义相似性即回应含义的匹配程度能提供更好的认知不确定性估计。为获得最准确的估计研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。Hamidieh说我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法但这种非常简单的方法最终效果最好。开发出估计认知不确定性的方法后他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。Hamidieh表示不确定性既取决于给定提示的不确定性也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。总不确定性指标能更有效地识别大语言模型出现幻觉的情况因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案这可能提升性能。研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。测量总不确定性通常比计算偶然不确定性需要更少查询这能降低计算成本并节约能源。实验还揭示认知不确定性在具有唯一正确答案的任务如事实性问答上最有效但在更开放性任务上可能表现不佳。未来研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。QAQ1什么是大语言模型的过度自信问题A大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错这会误导用户对预测准确性的判断在医疗或金融等高风险领域可能导致严重后果。Q2麻省理工学院的新方法如何识别不可靠的模型回应A新方法通过测量跨模型分歧来估计认知不确定性即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合形成总不确定性指标能更准确地识别自信但错误的预测。Q3总不确定性指标在哪些任务上效果最好A总不确定性指标在具有唯一正确答案的任务上最有效如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。
识别过度自信大语言模型的更优方法
大语言模型能够生成看似可信但实际不准确的回应因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示观察模型是否生成相同答案。但这种方法测量的是自信度即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断在医疗或金融等高风险领域可能导致严重后果。为解决这一不足麻省理工学院研究人员引入了一种新方法用于测量不同类型的不确定性能更可靠地识别自信但错误的大语言模型回应。他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。研究团队将他们的方法与大语言模型自一致性测量相结合创建了总不确定性指标并在10项实际任务中进行评估包括问答和数学推理。这一总不确定性指标持续优于其他测量方法更擅长识别不可靠的预测。麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示自一致性被广泛应用于不确定性量化的不同方法中但如果你的不确定性估计仅依赖单一模型的结果就不一定可信。我们回到起点理解当前方法的局限性并以此为出发点设计了一种补充方法能够在实证上改善结果。理解过度自信现象许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性即模型对自身预测的内部信心程度。然而大语言模型在完全错误时也可能表现自信。研究表明当模型过度自信时认知不确定性即是否使用正确模型的不确定性可能是评估真实不确定性的更好方式。麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。Hamidieh解释道如果我多次向ChatGPT问同一个问题它反复给出相同答案这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案这会让我感受到认知不确定性。认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型研究人员使用的替代品或近似方法往往依赖有缺陷的假设。为改进不确定性量化麻省理工学院研究人员需要更准确的认知不确定性估计方法。集成方法他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现比较语义相似性即回应含义的匹配程度能提供更好的认知不确定性估计。为获得最准确的估计研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。Hamidieh说我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法但这种非常简单的方法最终效果最好。开发出估计认知不确定性的方法后他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。Hamidieh表示不确定性既取决于给定提示的不确定性也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。总不确定性指标能更有效地识别大语言模型出现幻觉的情况因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案这可能提升性能。研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。测量总不确定性通常比计算偶然不确定性需要更少查询这能降低计算成本并节约能源。实验还揭示认知不确定性在具有唯一正确答案的任务如事实性问答上最有效但在更开放性任务上可能表现不佳。未来研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。QAQ1什么是大语言模型的过度自信问题A大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错这会误导用户对预测准确性的判断在医疗或金融等高风险领域可能导致严重后果。Q2麻省理工学院的新方法如何识别不可靠的模型回应A新方法通过测量跨模型分歧来估计认知不确定性即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合形成总不确定性指标能更准确地识别自信但错误的预测。Q3总不确定性指标在哪些任务上效果最好A总不确定性指标在具有唯一正确答案的任务上最有效如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。