这是一篇由加州大学洛杉矶分校、亚利桑那州立大学与艾伦人工智能研究所AI2联合撰写的研究论文发表于NeurIPS 2022核心聚焦科学问题问答场景中的多模态推理与可解释性。论文提出了大规模多模态科学问答数据集 SCIENCEQA首次为科学问题标注了配套的 “讲义Lecture” 与 “解释Explanation”并设计了基于思维链Chain-of-Thought, CoT的语言模型通过生成讲义和解释模拟人类多步推理过程显著提升了模型在科学问答任务中的性能与可解释性。一、研究背景与核心问题1.1 研究动机AI 系统的长期目标是像人类一样可靠决策并高效学习复杂任务。人类在解决问题时会遵循明确的思维链推理过程并通过解释表达出来而传统深度学习模型多为 “黑箱”仅输出最终结果无法揭示推理逻辑难以验证其对任务的理解程度与泛化能力。在科学问题问答领域现有研究存在明显不足数据集缺陷要么缺乏答案的解释标注要么局限于单一文本模态且规模小、领域多样性有限模型局限现有多模态方法难以同时理解多模态内容、整合外部知识并完成多跳推理且生成结果缺乏可解释性。科学问题问答需要领域特定知识与显式多跳推理模型若无法提供解释其可靠性与可信任度将大打折扣。因此亟需构建含解释标注的多模态科学问答数据集并探索能生成思维链的模型方法。1.2 核心问题如何构建覆盖多模态、多领域、大规模的科学问答数据集并为答案提供详细的推理解释标注语言模型能否通过生成思维链讲义 解释模拟人类推理过程提升科学问答的性能与可解释性思维链在少样本学习与微调场景中是否能帮助模型更高效地学习用更少数据达到相当性能1.3 研究贡献构建了SCIENCEQA 数据集包含 21,208 个多模态选择题覆盖自然科学、社会科学、语言科学三大领域首次为大部分问题标注了 “讲义通用背景知识” 与 “解释具体推理过程”验证了思维链的有效性在少样本GPT-3与微调UnifiedQA场景中生成思维链均能提升模型问答性能且 65.2% 的生成解释达到人类标注标准探索了数据效率优势思维链能帮助模型高效学习UnifiedQACoT仅用 40% 的训练数据即可达到无 CoT 模型用全量数据的性能。二、SCIENCEQA 数据集构建SCIENCEQA 是首个大规模多模态科学问答数据集专为评估模型的多模态理解、多跳推理与可解释性设计数据来源于 K-12 科学课程确保了领域多样性与教育场景适配性。2.1 数据集核心特征每个数据样本包含 “问题 - 选项 - 多模态上下文 - 正确答案 - 讲义 - 解释” 六部分结构如图 1 所示问题Question覆盖三大领域的科学问题长度 3-141 词平均 12.11 词选项Options2-5 个选项平均 4.40 词多模态上下文Context包括文本上下文48.2%、图像上下文48.7%含自然图像 14.0%、图表 34.8%、两者皆有30.8%或无上下文33.9%讲义Lecture83.9% 的样本包含提供解决同类问题的通用背景知识解释Explanation90.5% 的样本包含揭示针对该问题的具体推理过程。2.2 数据集规模与分布表格统计指标数值关键说明总问题数21,208含 9,122 个独特问题领域覆盖3 大主题、26 个子话题、127 个类别、379 项技能自然科学如物理、生物、社会科学如历史、经济、语言科学如语法、修辞上下文类型文本 10,220 个、图像 10,332 个、两者皆有 6,532 个图像含图表、自然场景图文本含说明性文字、数据描述标注覆盖率讲义 17,798 个83.9%、解释 19,202 个90.5%讲义提供通用知识解释对应具体推理链数据拆分训练集 12,726 个、验证集 4,241 个、测试集 4,241 个拆分比例 60:20:20确保分布一致性2.3 与现有数据集的差异SCIENCEQA 在规模、模态、领域多样性、标注完整性上均超越现有科学问答数据集多模态支持同时包含文本与图像上下文适配真实科学问题的多模态表达需求领域覆盖广突破仅自然科学的局限新增社会科学与语言科学涵盖更多技能点标注更丰富首次大规模提供 “讲义 解释” 双标注支持可解释性评估适配教育场景问题来源于 K-12 课程覆盖 1-12 年级难度梯度合理。三、模型设计基于思维链的科学问答论文设计了两类基于思维链的模型分别适配少样本GPT-3与微调UnifiedQA场景核心思路是让模型生成 “答案 讲义 解释” 的组合输出模拟人类推理过程。3.1 基线模型为全面评估思维链的优势设置了多类基线启发式基线随机选择Random Chance、人类表现Amazon Mechanical Turk 标注平均准确率 88.40%零样本 / 少样本基线UnifiedQA零样本、GPT-3零样本 / 2-shot无思维链微调基线VQA 模型如 VisualBERT、ViLT、Patch-TRM、UnifiedQA微调无思维链。3.2 思维链模型设计1UnifiedQACoT微调场景UnifiedQA 是文本问答 SOTA 模型原始输出仅为答案。论文对其进行格式修改微调后生成 “答案 讲义 解释” 的长文本序列具体格式为The answer is [选项]. BECAUSE: [讲义内容] [解释内容]通过这种方式模型在输出答案的同时必须完成思维链的生成强制其模拟多步推理过程。2GPT-3CoT少样本场景采用思维链提示Chain-of-Thought Prompting在提示中包含 “问题 - 选项 - 上下文 - 答案 讲义 解释” 的示例引导模型在少样本情况下生成思维链。提示格式如图 5 所示核心是让模型学习 “先推理生成讲义 解释、后输出答案” 的逻辑实际输出顺序为 “答案 BECAUSE 讲义 解释”。3.3 评估指标问答性能准确率Accuracy对于生成式模型如 GPT-3、UnifiedQA通过匹配最相似选项确定预测结果解释质量自动指标BLEU-1/4、ROUGE-L、语义相似度 人类评估相关性、正确性、完整性三者均满足则为 “黄金标准解释”。四、实验结果与分析实验分为三大核心部分问答性能评估、解释质量评估、思维链的附加价值分析数据效率、少样本提升等。4.1 问答性能核心结果1整体性能排名测试集准确率表格模型类型模型名称平均准确率关键提升人类表现-88.40%基准上限少样本模型GPT-3CoT2-shot75.17%比无 CoT 提升 1.20%微调模型UnifiedQACoTQCM→ALE74.11%比无 CoT 提升 3.99%VQA 模型VisualBERT61.87%多模态模型最优但远低于语言模型 CoT随机基线-39.83%最低性能基准关键结论语言模型 思维链显著超越 VQA 模型证明在科学问答中文本推理尤其是思维链比单纯多模态融合更重要GPT-3CoT在少样本场景下达到 75.17%接近微调模型性能体现了思维链在少样本学习中的优势UnifiedQACoT微调后性能提升 3.99%验证了思维链在有监督场景中的有效性。2不同维度性能分析领域维度自然科学NAT准确率最高GPT-3CoT达 75.44%社会科学SOC最低66.09%因社会科学需更多常识与上下文整合上下文维度文本上下文TXT任务准确率最高77.55%图像上下文IMG最低66.42%因图像 caption 存在信息损失年级维度1-6 年级G1-6准确率76.80%高于 7-12 年级68.89%高年级问题需更复杂的领域知识。4.2 解释质量评估1自动指标结果表格模型格式BLEU-1BLEU-4ROUGE-L语义相似度UnifiedQACoTQCM→ALE0.3970.3700.7140.811GPT-3CoTQCM→ALE0.1920.0520.3230.595UnifiedQACoT的生成解释在自动指标上更接近人类标注但自动指标仅能反映部分质量。2人类评估结果人类标注员从 “相关性、正确性、完整性” 三方面评估结果如下表格模型相关率正确率完整率黄金标准占比三者均满足UnifiedQACoT80.4%76.6%76.1%56.9%GPT-3CoT88.5%78.8%84.5%65.2%关键结论GPT-3CoT生成的解释更符合人类判断65.2% 达到 “黄金标准”证明思维链能有效提升模型的可解释性。4.3 思维链的附加价值分析1少样本学习上限探索将人类标注的 “讲义 解释” 直接作为输入而非让模型生成GPT-3 的少样本准确率提升至 94.13%比基础 CoT 模型75.17%提升 18.96%证明解释中蕴含的推理信息尚未被模型完全利用思维链仍有巨大优化空间。2数据效率优势如图 8 所示UnifiedQACoT在训练数据比例仅为 40% 时准确率已达到无 CoT 模型用 100% 数据的水平证明思维链能帮助模型更高效地学习减少对训练数据的依赖。3提示格式与示例数量影响提示格式同时包含讲义与解释的提示QCM→ALE性能最优且稳定性最强仅含解释的提示QCM→AE方差较大示例数量2-shot 提示效果最佳GPT-3CoT达 75.17%超过 2 个示例后性能下降因提示长度增加导致信息冗余。4.4 错误分析模型失败案例主要分为两类多模态理解不足图像 caption 缺乏细粒度信息如图表数据、复杂场景细节导致模型无法获取关键证据领域知识与推理缺陷缺乏冷门领域知识如语言科学中的拟人修辞术语或生成的思维链存在逻辑错误如混淆物理变化与化学变化。五、相关工作对比表格研究方向代表工作与本文核心差异视觉问答VQAVQA、GQA、CLEVR聚焦通用视觉问答无科学领域适配性缺乏解释标注科学问答数据集AI2D、TQA、VLQA规模小、模态单一多为文本或图表、无完整的讲义 解释标注思维链推理Wei et al. (2022)、Nye et al. (2021)多聚焦数学推理或纯文本任务未探索多模态科学问答场景且无大规模带解释标注的数据集从解释中学习Mishra et al. (2021)、Narang et al. (2020)未结合多模态场景且未系统验证思维链在少样本与微调场景中的双重优势本文的核心创新在于首次构建多模态 解释标注的科学问答数据集并全面验证了思维链在多场景下的性能提升、可解释性增强与数据效率优势。六、局限性与未来方向6.1 局限性图像信息损失模型依赖图像 caption 获取视觉信息caption 无法完全保留图像细节如图表数据、复杂结构影响多模态推理性能解释质量不均部分生成的解释存在相关性不足、逻辑不完整问题尤其是在复杂多跳推理场景领域覆盖局限虽涵盖三大领域但未涉及高等科学知识且多为选择题未支持开放式问答。6.2 未来方向优化多模态融合直接处理图像特征避免 caption 信息损失提升复杂图像如图表、示意图的理解能力提升解释质量设计更精细的思维链提示策略或通过强化学习优化解释的相关性与完整性扩展任务场景支持开放式科学问答、复杂科学问题求解如实验设计、公式推导覆盖更广泛的教育与科研场景。七、结论论文通过构建 SCIENCEQA 数据集与基于思维链的模型系统探索了多模态科学问答的性能与可解释性优化路径。核心结论如下思维链能有效提升模型的科学问答性能在少样本GPT-3与微调UnifiedQA场景中均有显著效果生成的思维链具有高可解释性65.2% 的解释达到人类标注标准为模型推理过程提供了透明化依据思维链能提升模型的数据效率帮助模型用更少数据完成高效学习为低资源场景下的模型优化提供了新思路。SCIENCEQA 数据集与思维链方法为科学问答领域的研究提供了标准化工具与核心范式对教育智能辅导、科学研究辅助等真实场景的落地具有重要参考价值。
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
这是一篇由加州大学洛杉矶分校、亚利桑那州立大学与艾伦人工智能研究所AI2联合撰写的研究论文发表于NeurIPS 2022核心聚焦科学问题问答场景中的多模态推理与可解释性。论文提出了大规模多模态科学问答数据集 SCIENCEQA首次为科学问题标注了配套的 “讲义Lecture” 与 “解释Explanation”并设计了基于思维链Chain-of-Thought, CoT的语言模型通过生成讲义和解释模拟人类多步推理过程显著提升了模型在科学问答任务中的性能与可解释性。一、研究背景与核心问题1.1 研究动机AI 系统的长期目标是像人类一样可靠决策并高效学习复杂任务。人类在解决问题时会遵循明确的思维链推理过程并通过解释表达出来而传统深度学习模型多为 “黑箱”仅输出最终结果无法揭示推理逻辑难以验证其对任务的理解程度与泛化能力。在科学问题问答领域现有研究存在明显不足数据集缺陷要么缺乏答案的解释标注要么局限于单一文本模态且规模小、领域多样性有限模型局限现有多模态方法难以同时理解多模态内容、整合外部知识并完成多跳推理且生成结果缺乏可解释性。科学问题问答需要领域特定知识与显式多跳推理模型若无法提供解释其可靠性与可信任度将大打折扣。因此亟需构建含解释标注的多模态科学问答数据集并探索能生成思维链的模型方法。1.2 核心问题如何构建覆盖多模态、多领域、大规模的科学问答数据集并为答案提供详细的推理解释标注语言模型能否通过生成思维链讲义 解释模拟人类推理过程提升科学问答的性能与可解释性思维链在少样本学习与微调场景中是否能帮助模型更高效地学习用更少数据达到相当性能1.3 研究贡献构建了SCIENCEQA 数据集包含 21,208 个多模态选择题覆盖自然科学、社会科学、语言科学三大领域首次为大部分问题标注了 “讲义通用背景知识” 与 “解释具体推理过程”验证了思维链的有效性在少样本GPT-3与微调UnifiedQA场景中生成思维链均能提升模型问答性能且 65.2% 的生成解释达到人类标注标准探索了数据效率优势思维链能帮助模型高效学习UnifiedQACoT仅用 40% 的训练数据即可达到无 CoT 模型用全量数据的性能。二、SCIENCEQA 数据集构建SCIENCEQA 是首个大规模多模态科学问答数据集专为评估模型的多模态理解、多跳推理与可解释性设计数据来源于 K-12 科学课程确保了领域多样性与教育场景适配性。2.1 数据集核心特征每个数据样本包含 “问题 - 选项 - 多模态上下文 - 正确答案 - 讲义 - 解释” 六部分结构如图 1 所示问题Question覆盖三大领域的科学问题长度 3-141 词平均 12.11 词选项Options2-5 个选项平均 4.40 词多模态上下文Context包括文本上下文48.2%、图像上下文48.7%含自然图像 14.0%、图表 34.8%、两者皆有30.8%或无上下文33.9%讲义Lecture83.9% 的样本包含提供解决同类问题的通用背景知识解释Explanation90.5% 的样本包含揭示针对该问题的具体推理过程。2.2 数据集规模与分布表格统计指标数值关键说明总问题数21,208含 9,122 个独特问题领域覆盖3 大主题、26 个子话题、127 个类别、379 项技能自然科学如物理、生物、社会科学如历史、经济、语言科学如语法、修辞上下文类型文本 10,220 个、图像 10,332 个、两者皆有 6,532 个图像含图表、自然场景图文本含说明性文字、数据描述标注覆盖率讲义 17,798 个83.9%、解释 19,202 个90.5%讲义提供通用知识解释对应具体推理链数据拆分训练集 12,726 个、验证集 4,241 个、测试集 4,241 个拆分比例 60:20:20确保分布一致性2.3 与现有数据集的差异SCIENCEQA 在规模、模态、领域多样性、标注完整性上均超越现有科学问答数据集多模态支持同时包含文本与图像上下文适配真实科学问题的多模态表达需求领域覆盖广突破仅自然科学的局限新增社会科学与语言科学涵盖更多技能点标注更丰富首次大规模提供 “讲义 解释” 双标注支持可解释性评估适配教育场景问题来源于 K-12 课程覆盖 1-12 年级难度梯度合理。三、模型设计基于思维链的科学问答论文设计了两类基于思维链的模型分别适配少样本GPT-3与微调UnifiedQA场景核心思路是让模型生成 “答案 讲义 解释” 的组合输出模拟人类推理过程。3.1 基线模型为全面评估思维链的优势设置了多类基线启发式基线随机选择Random Chance、人类表现Amazon Mechanical Turk 标注平均准确率 88.40%零样本 / 少样本基线UnifiedQA零样本、GPT-3零样本 / 2-shot无思维链微调基线VQA 模型如 VisualBERT、ViLT、Patch-TRM、UnifiedQA微调无思维链。3.2 思维链模型设计1UnifiedQACoT微调场景UnifiedQA 是文本问答 SOTA 模型原始输出仅为答案。论文对其进行格式修改微调后生成 “答案 讲义 解释” 的长文本序列具体格式为The answer is [选项]. BECAUSE: [讲义内容] [解释内容]通过这种方式模型在输出答案的同时必须完成思维链的生成强制其模拟多步推理过程。2GPT-3CoT少样本场景采用思维链提示Chain-of-Thought Prompting在提示中包含 “问题 - 选项 - 上下文 - 答案 讲义 解释” 的示例引导模型在少样本情况下生成思维链。提示格式如图 5 所示核心是让模型学习 “先推理生成讲义 解释、后输出答案” 的逻辑实际输出顺序为 “答案 BECAUSE 讲义 解释”。3.3 评估指标问答性能准确率Accuracy对于生成式模型如 GPT-3、UnifiedQA通过匹配最相似选项确定预测结果解释质量自动指标BLEU-1/4、ROUGE-L、语义相似度 人类评估相关性、正确性、完整性三者均满足则为 “黄金标准解释”。四、实验结果与分析实验分为三大核心部分问答性能评估、解释质量评估、思维链的附加价值分析数据效率、少样本提升等。4.1 问答性能核心结果1整体性能排名测试集准确率表格模型类型模型名称平均准确率关键提升人类表现-88.40%基准上限少样本模型GPT-3CoT2-shot75.17%比无 CoT 提升 1.20%微调模型UnifiedQACoTQCM→ALE74.11%比无 CoT 提升 3.99%VQA 模型VisualBERT61.87%多模态模型最优但远低于语言模型 CoT随机基线-39.83%最低性能基准关键结论语言模型 思维链显著超越 VQA 模型证明在科学问答中文本推理尤其是思维链比单纯多模态融合更重要GPT-3CoT在少样本场景下达到 75.17%接近微调模型性能体现了思维链在少样本学习中的优势UnifiedQACoT微调后性能提升 3.99%验证了思维链在有监督场景中的有效性。2不同维度性能分析领域维度自然科学NAT准确率最高GPT-3CoT达 75.44%社会科学SOC最低66.09%因社会科学需更多常识与上下文整合上下文维度文本上下文TXT任务准确率最高77.55%图像上下文IMG最低66.42%因图像 caption 存在信息损失年级维度1-6 年级G1-6准确率76.80%高于 7-12 年级68.89%高年级问题需更复杂的领域知识。4.2 解释质量评估1自动指标结果表格模型格式BLEU-1BLEU-4ROUGE-L语义相似度UnifiedQACoTQCM→ALE0.3970.3700.7140.811GPT-3CoTQCM→ALE0.1920.0520.3230.595UnifiedQACoT的生成解释在自动指标上更接近人类标注但自动指标仅能反映部分质量。2人类评估结果人类标注员从 “相关性、正确性、完整性” 三方面评估结果如下表格模型相关率正确率完整率黄金标准占比三者均满足UnifiedQACoT80.4%76.6%76.1%56.9%GPT-3CoT88.5%78.8%84.5%65.2%关键结论GPT-3CoT生成的解释更符合人类判断65.2% 达到 “黄金标准”证明思维链能有效提升模型的可解释性。4.3 思维链的附加价值分析1少样本学习上限探索将人类标注的 “讲义 解释” 直接作为输入而非让模型生成GPT-3 的少样本准确率提升至 94.13%比基础 CoT 模型75.17%提升 18.96%证明解释中蕴含的推理信息尚未被模型完全利用思维链仍有巨大优化空间。2数据效率优势如图 8 所示UnifiedQACoT在训练数据比例仅为 40% 时准确率已达到无 CoT 模型用 100% 数据的水平证明思维链能帮助模型更高效地学习减少对训练数据的依赖。3提示格式与示例数量影响提示格式同时包含讲义与解释的提示QCM→ALE性能最优且稳定性最强仅含解释的提示QCM→AE方差较大示例数量2-shot 提示效果最佳GPT-3CoT达 75.17%超过 2 个示例后性能下降因提示长度增加导致信息冗余。4.4 错误分析模型失败案例主要分为两类多模态理解不足图像 caption 缺乏细粒度信息如图表数据、复杂场景细节导致模型无法获取关键证据领域知识与推理缺陷缺乏冷门领域知识如语言科学中的拟人修辞术语或生成的思维链存在逻辑错误如混淆物理变化与化学变化。五、相关工作对比表格研究方向代表工作与本文核心差异视觉问答VQAVQA、GQA、CLEVR聚焦通用视觉问答无科学领域适配性缺乏解释标注科学问答数据集AI2D、TQA、VLQA规模小、模态单一多为文本或图表、无完整的讲义 解释标注思维链推理Wei et al. (2022)、Nye et al. (2021)多聚焦数学推理或纯文本任务未探索多模态科学问答场景且无大规模带解释标注的数据集从解释中学习Mishra et al. (2021)、Narang et al. (2020)未结合多模态场景且未系统验证思维链在少样本与微调场景中的双重优势本文的核心创新在于首次构建多模态 解释标注的科学问答数据集并全面验证了思维链在多场景下的性能提升、可解释性增强与数据效率优势。六、局限性与未来方向6.1 局限性图像信息损失模型依赖图像 caption 获取视觉信息caption 无法完全保留图像细节如图表数据、复杂结构影响多模态推理性能解释质量不均部分生成的解释存在相关性不足、逻辑不完整问题尤其是在复杂多跳推理场景领域覆盖局限虽涵盖三大领域但未涉及高等科学知识且多为选择题未支持开放式问答。6.2 未来方向优化多模态融合直接处理图像特征避免 caption 信息损失提升复杂图像如图表、示意图的理解能力提升解释质量设计更精细的思维链提示策略或通过强化学习优化解释的相关性与完整性扩展任务场景支持开放式科学问答、复杂科学问题求解如实验设计、公式推导覆盖更广泛的教育与科研场景。七、结论论文通过构建 SCIENCEQA 数据集与基于思维链的模型系统探索了多模态科学问答的性能与可解释性优化路径。核心结论如下思维链能有效提升模型的科学问答性能在少样本GPT-3与微调UnifiedQA场景中均有显著效果生成的思维链具有高可解释性65.2% 的解释达到人类标注标准为模型推理过程提供了透明化依据思维链能提升模型的数据效率帮助模型用更少数据完成高效学习为低资源场景下的模型优化提供了新思路。SCIENCEQA 数据集与思维链方法为科学问答领域的研究提供了标准化工具与核心范式对教育智能辅导、科学研究辅助等真实场景的落地具有重要参考价值。