AI 通关攻略 · 第 3 关 | 幻觉为什么 AI 会一本正经地胡说八道什么是幻觉幻觉Hallucination 是指 LLM 在生成内容时产生了看似合理但实际上是错误的输出——包括虚假信息、偏见、逻辑矛盾等。类比就像一个人LLM在很自信地讲一个他从未经历过、也没有任何依据的故事。他讲得很流畅、很连贯你乍一听会觉得很有道理但仔细核实就会发现全是编的。这和回答错误不同回答错误 模型知识不足给出了不准确的答案幻觉 模型在没有足够依据的情况下以高置信度生成了看似合理但虚假的内容为什么 LLM 会产生幻觉1.1 本质原因LLM 是预测机器不是知识库LLM 的本质是根据统计规律预测下一个 token它不存储事实而是存储语言表达的规律。这意味着模型知道中国首都是北京在语言中出现频率很高但模型并不知道北京真的是中国的首都这不是它存储的信息只是语言模式当被问到冷门问题时模型会根据语言模式编一个听起来合理的答案而不是说我不知道。1.2 训练数据的偏差与过时数据过时模型的训练数据有截止日期超过截止日期的事实模型完全不知道数据偏差如果训练数据中某类内容出现频率更高模型会更倾向于生成相关内容数据错误互联网文本本身包含大量错误信息模型学到了这些错误1.3 上下文过长或信息缺失当用户给的信息不完整时模型倾向于补全出一个看似合理但可能错误的答案。1.4 生成参数设置Temperature 设置过高、Top-p 过大时模型输出更随机更容易胡编乱造。幻觉的分类2.1 事实性幻觉Factual Hallucination生成的内容与可验证的客观事实不符。例子用户特斯拉是哪年成立的LLM 答特斯拉公司成立于 1900 年。✅ 错误正确是 2003 年用户珠穆朗玛峰有多高LLM 答8848 米。✅ 正确2.2 逻辑性幻觉Logical Hallucination生成的内容前后矛盾或推理过程有漏洞。例子用户猫是哺乳动物吗LLM 答是的。猫是哺乳动物它们通过光合作用获取能量。前半句正确后半句突然猫通过光合作用获取能量——这是典型的逻辑跳跃导致的幻觉。2.3 引用幻觉Fabricated Hallucination模型编造出不存在的引用、论文、数据。例子用户有研究证明熬夜对身体好吗LLM 答是的2023 年哈佛大学医学院的 Smith 博士在《Nature Medicine》上发表的研究表明……根本不存在这篇论文和这位博士。这是最危险的幻觉之一因为在学术写作、商业报告场景中极具欺骗性。如何缓解幻觉3.1 RAG检索增强生成最主流的解决方案让 LLM 在回答问题前先从外部知识库检索相关信息将检索到的真实资料作为上下文一起发给 LLMLLM 基于真实资料生成答案而不是只靠内部知识RAG 是当前企业级 AI 应用中缓解幻觉的首选方案。3.2 提供足够的上下文用户提问时提供清晰、完整的背景信息减少模型补全的空间。3.3 使用 Function Calling / Structured Output对于需要精确数据的场景限制 LLM 只输出预定义的格式减少自由发挥。3.4 调整生成参数降低 Temperature减少随机性让输出更确定性限制最大 Token 数防止模型越扯越远3.5 微调Fine-tuning针对特定领域进行微调让模型更熟悉该领域的正确知识。3.6 Chain-of-Thought思维链让模型分步骤推理而不是直接给出答案。研究表明分步推理能减少逻辑性幻觉。3.7 提示词工程通过 System Prompt 让模型在不确定时主动说我不知道System Prompt 示例“如果你不确定答案的准确性请直接说你不知道不要编造信息。”幻觉能完全消除吗目前无法完全消除。 这是 LLM 基于统计预测本质上的局限。但可以通过以下方式显著降低方法效果成本RAG事实性幻觉大幅减少需要维护知识库和向量数据库调整 Temperature轻微减少随机性幻觉几乎零成本微调对特定领域幻觉减少明显训练成本较高思维链推理逻辑性幻觉减少略微增加 token 消耗提示词工程减少瞎编引用几乎零成本总结核心认识幻觉不是 LLM 的bug而是 LLM 作为下一个 token 预测机器的本质特性。理解这一点才能正确地选择缓解手段而不是期望修复这个问题。记住一个原则LLM 是语言天才但不是事实专家。 它擅长组织语言、推理逻辑但它不知道自己说的是不是真的。在使用 LLM 时永远保持批判性思维——尤其是涉及重要决策时务必核实 LLM 提供的事实性信息。
AI 通关攻略 · 第 3 关 | 幻觉:为什么 AI 会一本正经地胡说八道
AI 通关攻略 · 第 3 关 | 幻觉为什么 AI 会一本正经地胡说八道什么是幻觉幻觉Hallucination 是指 LLM 在生成内容时产生了看似合理但实际上是错误的输出——包括虚假信息、偏见、逻辑矛盾等。类比就像一个人LLM在很自信地讲一个他从未经历过、也没有任何依据的故事。他讲得很流畅、很连贯你乍一听会觉得很有道理但仔细核实就会发现全是编的。这和回答错误不同回答错误 模型知识不足给出了不准确的答案幻觉 模型在没有足够依据的情况下以高置信度生成了看似合理但虚假的内容为什么 LLM 会产生幻觉1.1 本质原因LLM 是预测机器不是知识库LLM 的本质是根据统计规律预测下一个 token它不存储事实而是存储语言表达的规律。这意味着模型知道中国首都是北京在语言中出现频率很高但模型并不知道北京真的是中国的首都这不是它存储的信息只是语言模式当被问到冷门问题时模型会根据语言模式编一个听起来合理的答案而不是说我不知道。1.2 训练数据的偏差与过时数据过时模型的训练数据有截止日期超过截止日期的事实模型完全不知道数据偏差如果训练数据中某类内容出现频率更高模型会更倾向于生成相关内容数据错误互联网文本本身包含大量错误信息模型学到了这些错误1.3 上下文过长或信息缺失当用户给的信息不完整时模型倾向于补全出一个看似合理但可能错误的答案。1.4 生成参数设置Temperature 设置过高、Top-p 过大时模型输出更随机更容易胡编乱造。幻觉的分类2.1 事实性幻觉Factual Hallucination生成的内容与可验证的客观事实不符。例子用户特斯拉是哪年成立的LLM 答特斯拉公司成立于 1900 年。✅ 错误正确是 2003 年用户珠穆朗玛峰有多高LLM 答8848 米。✅ 正确2.2 逻辑性幻觉Logical Hallucination生成的内容前后矛盾或推理过程有漏洞。例子用户猫是哺乳动物吗LLM 答是的。猫是哺乳动物它们通过光合作用获取能量。前半句正确后半句突然猫通过光合作用获取能量——这是典型的逻辑跳跃导致的幻觉。2.3 引用幻觉Fabricated Hallucination模型编造出不存在的引用、论文、数据。例子用户有研究证明熬夜对身体好吗LLM 答是的2023 年哈佛大学医学院的 Smith 博士在《Nature Medicine》上发表的研究表明……根本不存在这篇论文和这位博士。这是最危险的幻觉之一因为在学术写作、商业报告场景中极具欺骗性。如何缓解幻觉3.1 RAG检索增强生成最主流的解决方案让 LLM 在回答问题前先从外部知识库检索相关信息将检索到的真实资料作为上下文一起发给 LLMLLM 基于真实资料生成答案而不是只靠内部知识RAG 是当前企业级 AI 应用中缓解幻觉的首选方案。3.2 提供足够的上下文用户提问时提供清晰、完整的背景信息减少模型补全的空间。3.3 使用 Function Calling / Structured Output对于需要精确数据的场景限制 LLM 只输出预定义的格式减少自由发挥。3.4 调整生成参数降低 Temperature减少随机性让输出更确定性限制最大 Token 数防止模型越扯越远3.5 微调Fine-tuning针对特定领域进行微调让模型更熟悉该领域的正确知识。3.6 Chain-of-Thought思维链让模型分步骤推理而不是直接给出答案。研究表明分步推理能减少逻辑性幻觉。3.7 提示词工程通过 System Prompt 让模型在不确定时主动说我不知道System Prompt 示例“如果你不确定答案的准确性请直接说你不知道不要编造信息。”幻觉能完全消除吗目前无法完全消除。 这是 LLM 基于统计预测本质上的局限。但可以通过以下方式显著降低方法效果成本RAG事实性幻觉大幅减少需要维护知识库和向量数据库调整 Temperature轻微减少随机性幻觉几乎零成本微调对特定领域幻觉减少明显训练成本较高思维链推理逻辑性幻觉减少略微增加 token 消耗提示词工程减少瞎编引用几乎零成本总结核心认识幻觉不是 LLM 的bug而是 LLM 作为下一个 token 预测机器的本质特性。理解这一点才能正确地选择缓解手段而不是期望修复这个问题。记住一个原则LLM 是语言天才但不是事实专家。 它擅长组织语言、推理逻辑但它不知道自己说的是不是真的。在使用 LLM 时永远保持批判性思维——尤其是涉及重要决策时务必核实 LLM 提供的事实性信息。