先做一道题。“一个人把雨伞落在了出租车上。他下车的时候外面正在下雨。请问他接下来最可能做什么”你几乎不需要思考就能回答他会想办法找到那辆出租车或者去买一把新伞或者在门口等雨停或者借一把伞。你怎么知道这些因为你知道雨伞是用来挡雨的。下雨天没有伞会被淋湿。被淋湿是不舒服的。所以他会想办法解决这个问题。这就是常识推理。你用了不到一秒钟。但这一秒钟里你的大脑调用了无数条隐性的知识完成了一个复杂的推理过程。现在问题来了ChatGPT是怎么做到这件事的常识推理到底难在哪里常识是冰山水下的部分人类的语言就像一座冰山。水面上的部分是说出来的话。水面下的部分是没有说出来的常识。他饿了去了厨房。 这句话只有八个字。 但理解这句话需要知道 - 饿了需要吃东西。 - 吃东西需要食物。 - 厨房是存放和准备食物的地方。 - 所以饿了去厨房是合理的行为。 - 他去厨房是为了找食物或者做食物。这些知识没有人在这句话里说出来。但理解这句话必须知道这些。这就是常识。常识是无穷无尽的人类的常识涵盖了生活的方方面面。物理常识 重的东西会往下掉。 火是热的。 水往低处流。 生物常识 人需要吃饭、喝水、睡觉。 动物会感到疼痛。 植物需要阳光和水。 社会常识 医生是治病的。 学校是学习的地方。 朋友是互相帮助的。 心理常识 人在失去重要的东西时会难过。 人在被赞美时会高兴。 人在危险时会害怕。 因果常识 下雨地面会湿。 努力学习成绩会提高。 不睡觉会困。这些常识没有人系统地整理过没有人完整地写下来过。它们存在于每一个人的脑子里以一种隐性的、分散的方式。常识是机器最难学的东西正因为常识是隐性的是分散的是无穷无尽的所以让机器学会常识是人工智能领域最困难的问题之一。早期的人工智能试图手工编写常识规则。规则1如果下雨地面会湿。 规则2如果地面湿走路要小心。 规则3如果没有伞下雨会被淋湿。 ...但常识是无穷无尽的。你写了一万条规则还有一百万条没有写。这条路走不通。ChatGPT 的常识推理从海量文本中涌现核心思想读遍人类的文字ChatGPT用了一种完全不同的方法。它不手工编写规则。它读遍了人类写下的几乎所有文字。新闻小说教科书论文博客论坛对话百科全书。几乎涵盖了人类所有的书面知识。在这个过程中常识自动地从海量文本里涌现出来了。为什么读文字能学到常识这是一个深刻的问题。文字是人类记录世界的方式。人类在写作的时候会把自己的常识隐性地编码进文字里。他饿了去了厨房 打开冰箱发现里面空空如也 叹了口气决定出去吃饭。 这段文字隐含了大量的常识 - 饿了要找食物。 - 厨房是找食物的地方。 - 冰箱是存放食物的地方。 - 冰箱空了意味着没有食物。 - 没有食物可以出去吃饭。 - 叹气表示失望或无奈。ChatGPT读了无数篇这样的文字从中提取出了隐含的常识。这个过程不是人工设计的而是自动涌现的。ChatGPT 常识推理的具体机制机制一模式识别与泛化ChatGPT在训练过程中看到了无数个常识推理的例子。例子1 天气预报说明天下雨 她提前把晾在外面的衣服收了进来。 隐含常识下雨会把衣服淋湿 所以要提前收衣服。 例子2 他发现钱包不见了 赶紧打电话挂失银行卡。 隐含常识钱包丢了银行卡可能被盗用 所以要挂失。 例子3 孩子发烧了 妈妈立刻带他去医院。 隐含常识发烧是生病的症状 生病了要去医院。看了无数个这样的例子ChatGPT学会了常识推理的模式原因 → 结果问题 → 解决方案状态 → 行动。当遇到新的情况它能把学到的模式泛化到新的场景里。机制二因果链推理ChatGPT能进行多步的因果推理。问题如果一个城市突然停电 会发生什么 ChatGPT 的推理链 第一步停电的直接影响 - 灯光熄灭室内变暗 - 电器停止工作 - 电梯停运 第二步连锁影响 - 灯光熄灭 → 夜间行动困难 - 电器停止 → 冰箱里的食物开始变质 - 电梯停运 → 高层住户无法正常出行 - 交通信号灯停止 → 交通混乱 第三步更深层的影响 - 医院的医疗设备可能受影响 但医院通常有备用发电机 - 工厂停产 - 通信基站可能断电影响手机信号 第四步人们的应对行为 - 点蜡烛或使用手电筒 - 减少不必要的外出 - 购买食物以防冰箱里的食物变质 - 联系电力公司了解情况这种多步推理需要大量的常识支撑。ChatGPT能把这些常识串联成一条推理链。机制三反事实推理ChatGPT能进行如果……会怎样的推理。这种推理需要想象一个不存在的情况然后基于常识推断结果。问题如果人类没有发明文字 世界会是什么样子 ChatGPT 的反事实推理 文字的作用 - 记录信息跨越时间传递知识 - 跨越空间传递信息 - 积累和传承文明 没有文字的影响 知识传承方面 所有知识只能靠口耳相传。 每一代人都要重新学习 无法站在前人的肩膀上。 科学、技术的发展会极其缓慢。 社会组织方面 无法制定和记录法律。 大规模的社会组织几乎不可能。 国家可能无法形成。 文化方面 没有书籍没有历史记录。 文化只能在小范围内传播。 人类文明可能停留在部落阶段。 结论 没有文字人类文明 可能还停留在石器时代。 文字是人类最重要的发明之一。机制四类比推理ChatGPT能通过类比把一个领域的常识迁移到另一个领域。问题学习编程和学习一门外语 有什么相似之处 ChatGPT 的类比推理 相似点1都有基础语法 外语主谓宾、时态、语态 编程变量、函数、循环、条件 相似点2都需要大量练习 外语多说多写才能流利 编程多写代码才能熟练 相似点3都有语感 外语熟练后能感觉到哪句话听起来对 编程熟练后能感觉到哪段代码写得好 相似点4都需要沉浸式学习 外语最好的方法是在使用中学习 编程最好的方法是做真实的项目 相似点5都有方言 外语英语有美式、英式、澳式 编程Python、Java、C各有风格 结论 学编程就像学外语。 不要只背语法要多说写代码。 沉浸在真实的项目里 比死记硬背有效得多。常识推理的实际案例案例一日常生活推理用户我把钥匙锁在车里了 现在在停车场 我应该怎么办 ChatGPT 的常识推理 理解情况 - 钥匙在车里车门锁着 - 用户在停车场 - 用户需要进入车内 可能的解决方案 方案1最推荐 联系道路救援服务。 大多数汽车保险包含道路救援。 专业人员能安全地开锁不损坏车辆。 方案2 联系汽车经销商或4S店。 他们可能有备用钥匙 或者能提供开锁服务。 方案3 如果有备用钥匙 联系家人或朋友 让他们把备用钥匙送来。 方案4不推荐 自己尝试开锁。 可能损坏车辆 而且在公共场所撬车 可能引起误会。 注意事项 如果车内有儿童或宠物 这是紧急情况 应立即拨打119或110。 建议 以后可以把备用钥匙 放在家里或交给信任的人保管。案例二社会情境推理用户我在会议上 提出了一个建议 但老板当场否定了 还说我没有考虑全面。 我很委屈怎么办 ChatGPT 的常识推理 理解情境 - 用户的建议被否定 - 否定方式让用户感到委屈 - 涉及职场关系 情感层面 被当众否定确实让人难受。 这种感受是完全正常的。 先允许自己有这种情绪。 理性分析 可能的情况1老板的否定有道理 冷静下来重新审视自己的建议 是否真的有考虑不周的地方 如果有这是一个学习的机会。 可能的情况2老板的否定方式不妥当 即使建议有问题 当众否定也不是好的管理方式。 但在职场这种情况并不罕见。 建议的行动 短期 不要在情绪激动时做任何反应。 给自己一些时间冷静下来。 中期 找一个合适的时机 私下和老板沟通 了解他的具体顾虑是什么。 这样既能学到东西 也能展示你的成熟和专业。 长期 在提建议之前 多做准备考虑更多角度 预判可能的质疑提前准备回应。案例三科学常识推理用户为什么夏天 深色衣服比浅色衣服 更让人感到热 ChatGPT 的常识推理 核心原理光的吸收与反射 深色衣服 深色吸收更多的光能。 光能转化为热能。 所以深色衣服吸收更多热量 让穿着者感到更热。 浅色衣服 浅色反射更多的光能。 吸收的热量更少。 所以浅色衣服让穿着者感到更凉爽。 延伸推理 为什么沙漠地区的人 传统上穿白色长袍 → 白色反射阳光减少热量吸收。 → 长袍覆盖全身减少皮肤直接暴露在阳光下。 为什么北极熊的毛是白色的 → 白色在雪地里起到伪装作用。 → 但也有研究认为 北极熊的毛实际上是透明的 白色是光线散射的结果。 实际建议 夏天选择浅色、宽松的衣服 能有效减少热量吸收 让你感到更凉爽。常识推理的局限性ChatGPT 的常识推理已经非常强大。但它还有明显的局限性。局限一常识的边界ChatGPT 的常识来自训练数据。训练数据里没有的常识它可能不知道。非常小众的领域 非常特殊的文化背景 非常新的社会现象 ChatGPT 的常识推理 可能不够准确。局限二常识的偏见训练数据来自人类写的文字。人类的文字有偏见。ChatGPT可能学到了这些偏见。某些文化的常识 在训练数据里覆盖更多。 某些文化的常识 在训练数据里覆盖更少。 ChatGPT对不同文化的常识 理解深度可能不一样。局限三常识推理的错误ChatGPT有时候会做出错误的常识推理。用户一个人在沙漠里迷路了 他找到了一个仙人掌 他应该喝仙人掌里的水吗 错误的常识推理 仙人掌里有水 在沙漠里缺水 所以应该喝仙人掌里的水。 正确的常识推理 仙人掌里的液体 含有大量的草酸和其他化学物质 直接饮用可能导致腹泻 反而加速脱水。 在沙漠求生中 不建议直接饮用仙人掌液体。常识有时候和直觉是相反的。ChatGPT可能会犯这种错误。常识推理的未来更强的推理能力研究者们正在开发更强的推理能力。思维链Chain of Thought让模型一步一步地推理而不是直接给出答案。这大幅提升了常识推理的准确性。与外部知识库的结合未来的模型可能把大语言模型和专门的常识知识库结合起来。大语言模型提供灵活的语言理解和生成 常识知识库提供精确的、可验证的常识 两者结合 既有灵活性又有准确性。最后说一句回到开头的那道题。“一个人把雨伞落在了出租车上。他下车的时候外面正在下雨。请问他接下来最可能做什么”你用了不到一秒钟就给出了答案。ChatGPT也能给出类似的答案。但你们用的方式完全不同。你是从几十年的生活经历里提炼出了这种常识。你真正地被雨淋过丢过东西感受过那种懊恼和无奈。ChatGPT是从几千亿个词里提炼出了这种常识。它读过了无数篇关于下雨、关于丢东西、关于懊恼的文字。它没有被雨淋过没有真正丢过东西没有真正感受过那种懊恼。但它能推理出那个人接下来最可能做什么。这是一种奇妙的能力。不是人类的常识但像人类的常识。不完美但令人惊叹。也许这就足够了。也许这只是开始。
ChatGPT:如何做到常识推理
先做一道题。“一个人把雨伞落在了出租车上。他下车的时候外面正在下雨。请问他接下来最可能做什么”你几乎不需要思考就能回答他会想办法找到那辆出租车或者去买一把新伞或者在门口等雨停或者借一把伞。你怎么知道这些因为你知道雨伞是用来挡雨的。下雨天没有伞会被淋湿。被淋湿是不舒服的。所以他会想办法解决这个问题。这就是常识推理。你用了不到一秒钟。但这一秒钟里你的大脑调用了无数条隐性的知识完成了一个复杂的推理过程。现在问题来了ChatGPT是怎么做到这件事的常识推理到底难在哪里常识是冰山水下的部分人类的语言就像一座冰山。水面上的部分是说出来的话。水面下的部分是没有说出来的常识。他饿了去了厨房。 这句话只有八个字。 但理解这句话需要知道 - 饿了需要吃东西。 - 吃东西需要食物。 - 厨房是存放和准备食物的地方。 - 所以饿了去厨房是合理的行为。 - 他去厨房是为了找食物或者做食物。这些知识没有人在这句话里说出来。但理解这句话必须知道这些。这就是常识。常识是无穷无尽的人类的常识涵盖了生活的方方面面。物理常识 重的东西会往下掉。 火是热的。 水往低处流。 生物常识 人需要吃饭、喝水、睡觉。 动物会感到疼痛。 植物需要阳光和水。 社会常识 医生是治病的。 学校是学习的地方。 朋友是互相帮助的。 心理常识 人在失去重要的东西时会难过。 人在被赞美时会高兴。 人在危险时会害怕。 因果常识 下雨地面会湿。 努力学习成绩会提高。 不睡觉会困。这些常识没有人系统地整理过没有人完整地写下来过。它们存在于每一个人的脑子里以一种隐性的、分散的方式。常识是机器最难学的东西正因为常识是隐性的是分散的是无穷无尽的所以让机器学会常识是人工智能领域最困难的问题之一。早期的人工智能试图手工编写常识规则。规则1如果下雨地面会湿。 规则2如果地面湿走路要小心。 规则3如果没有伞下雨会被淋湿。 ...但常识是无穷无尽的。你写了一万条规则还有一百万条没有写。这条路走不通。ChatGPT 的常识推理从海量文本中涌现核心思想读遍人类的文字ChatGPT用了一种完全不同的方法。它不手工编写规则。它读遍了人类写下的几乎所有文字。新闻小说教科书论文博客论坛对话百科全书。几乎涵盖了人类所有的书面知识。在这个过程中常识自动地从海量文本里涌现出来了。为什么读文字能学到常识这是一个深刻的问题。文字是人类记录世界的方式。人类在写作的时候会把自己的常识隐性地编码进文字里。他饿了去了厨房 打开冰箱发现里面空空如也 叹了口气决定出去吃饭。 这段文字隐含了大量的常识 - 饿了要找食物。 - 厨房是找食物的地方。 - 冰箱是存放食物的地方。 - 冰箱空了意味着没有食物。 - 没有食物可以出去吃饭。 - 叹气表示失望或无奈。ChatGPT读了无数篇这样的文字从中提取出了隐含的常识。这个过程不是人工设计的而是自动涌现的。ChatGPT 常识推理的具体机制机制一模式识别与泛化ChatGPT在训练过程中看到了无数个常识推理的例子。例子1 天气预报说明天下雨 她提前把晾在外面的衣服收了进来。 隐含常识下雨会把衣服淋湿 所以要提前收衣服。 例子2 他发现钱包不见了 赶紧打电话挂失银行卡。 隐含常识钱包丢了银行卡可能被盗用 所以要挂失。 例子3 孩子发烧了 妈妈立刻带他去医院。 隐含常识发烧是生病的症状 生病了要去医院。看了无数个这样的例子ChatGPT学会了常识推理的模式原因 → 结果问题 → 解决方案状态 → 行动。当遇到新的情况它能把学到的模式泛化到新的场景里。机制二因果链推理ChatGPT能进行多步的因果推理。问题如果一个城市突然停电 会发生什么 ChatGPT 的推理链 第一步停电的直接影响 - 灯光熄灭室内变暗 - 电器停止工作 - 电梯停运 第二步连锁影响 - 灯光熄灭 → 夜间行动困难 - 电器停止 → 冰箱里的食物开始变质 - 电梯停运 → 高层住户无法正常出行 - 交通信号灯停止 → 交通混乱 第三步更深层的影响 - 医院的医疗设备可能受影响 但医院通常有备用发电机 - 工厂停产 - 通信基站可能断电影响手机信号 第四步人们的应对行为 - 点蜡烛或使用手电筒 - 减少不必要的外出 - 购买食物以防冰箱里的食物变质 - 联系电力公司了解情况这种多步推理需要大量的常识支撑。ChatGPT能把这些常识串联成一条推理链。机制三反事实推理ChatGPT能进行如果……会怎样的推理。这种推理需要想象一个不存在的情况然后基于常识推断结果。问题如果人类没有发明文字 世界会是什么样子 ChatGPT 的反事实推理 文字的作用 - 记录信息跨越时间传递知识 - 跨越空间传递信息 - 积累和传承文明 没有文字的影响 知识传承方面 所有知识只能靠口耳相传。 每一代人都要重新学习 无法站在前人的肩膀上。 科学、技术的发展会极其缓慢。 社会组织方面 无法制定和记录法律。 大规模的社会组织几乎不可能。 国家可能无法形成。 文化方面 没有书籍没有历史记录。 文化只能在小范围内传播。 人类文明可能停留在部落阶段。 结论 没有文字人类文明 可能还停留在石器时代。 文字是人类最重要的发明之一。机制四类比推理ChatGPT能通过类比把一个领域的常识迁移到另一个领域。问题学习编程和学习一门外语 有什么相似之处 ChatGPT 的类比推理 相似点1都有基础语法 外语主谓宾、时态、语态 编程变量、函数、循环、条件 相似点2都需要大量练习 外语多说多写才能流利 编程多写代码才能熟练 相似点3都有语感 外语熟练后能感觉到哪句话听起来对 编程熟练后能感觉到哪段代码写得好 相似点4都需要沉浸式学习 外语最好的方法是在使用中学习 编程最好的方法是做真实的项目 相似点5都有方言 外语英语有美式、英式、澳式 编程Python、Java、C各有风格 结论 学编程就像学外语。 不要只背语法要多说写代码。 沉浸在真实的项目里 比死记硬背有效得多。常识推理的实际案例案例一日常生活推理用户我把钥匙锁在车里了 现在在停车场 我应该怎么办 ChatGPT 的常识推理 理解情况 - 钥匙在车里车门锁着 - 用户在停车场 - 用户需要进入车内 可能的解决方案 方案1最推荐 联系道路救援服务。 大多数汽车保险包含道路救援。 专业人员能安全地开锁不损坏车辆。 方案2 联系汽车经销商或4S店。 他们可能有备用钥匙 或者能提供开锁服务。 方案3 如果有备用钥匙 联系家人或朋友 让他们把备用钥匙送来。 方案4不推荐 自己尝试开锁。 可能损坏车辆 而且在公共场所撬车 可能引起误会。 注意事项 如果车内有儿童或宠物 这是紧急情况 应立即拨打119或110。 建议 以后可以把备用钥匙 放在家里或交给信任的人保管。案例二社会情境推理用户我在会议上 提出了一个建议 但老板当场否定了 还说我没有考虑全面。 我很委屈怎么办 ChatGPT 的常识推理 理解情境 - 用户的建议被否定 - 否定方式让用户感到委屈 - 涉及职场关系 情感层面 被当众否定确实让人难受。 这种感受是完全正常的。 先允许自己有这种情绪。 理性分析 可能的情况1老板的否定有道理 冷静下来重新审视自己的建议 是否真的有考虑不周的地方 如果有这是一个学习的机会。 可能的情况2老板的否定方式不妥当 即使建议有问题 当众否定也不是好的管理方式。 但在职场这种情况并不罕见。 建议的行动 短期 不要在情绪激动时做任何反应。 给自己一些时间冷静下来。 中期 找一个合适的时机 私下和老板沟通 了解他的具体顾虑是什么。 这样既能学到东西 也能展示你的成熟和专业。 长期 在提建议之前 多做准备考虑更多角度 预判可能的质疑提前准备回应。案例三科学常识推理用户为什么夏天 深色衣服比浅色衣服 更让人感到热 ChatGPT 的常识推理 核心原理光的吸收与反射 深色衣服 深色吸收更多的光能。 光能转化为热能。 所以深色衣服吸收更多热量 让穿着者感到更热。 浅色衣服 浅色反射更多的光能。 吸收的热量更少。 所以浅色衣服让穿着者感到更凉爽。 延伸推理 为什么沙漠地区的人 传统上穿白色长袍 → 白色反射阳光减少热量吸收。 → 长袍覆盖全身减少皮肤直接暴露在阳光下。 为什么北极熊的毛是白色的 → 白色在雪地里起到伪装作用。 → 但也有研究认为 北极熊的毛实际上是透明的 白色是光线散射的结果。 实际建议 夏天选择浅色、宽松的衣服 能有效减少热量吸收 让你感到更凉爽。常识推理的局限性ChatGPT 的常识推理已经非常强大。但它还有明显的局限性。局限一常识的边界ChatGPT 的常识来自训练数据。训练数据里没有的常识它可能不知道。非常小众的领域 非常特殊的文化背景 非常新的社会现象 ChatGPT 的常识推理 可能不够准确。局限二常识的偏见训练数据来自人类写的文字。人类的文字有偏见。ChatGPT可能学到了这些偏见。某些文化的常识 在训练数据里覆盖更多。 某些文化的常识 在训练数据里覆盖更少。 ChatGPT对不同文化的常识 理解深度可能不一样。局限三常识推理的错误ChatGPT有时候会做出错误的常识推理。用户一个人在沙漠里迷路了 他找到了一个仙人掌 他应该喝仙人掌里的水吗 错误的常识推理 仙人掌里有水 在沙漠里缺水 所以应该喝仙人掌里的水。 正确的常识推理 仙人掌里的液体 含有大量的草酸和其他化学物质 直接饮用可能导致腹泻 反而加速脱水。 在沙漠求生中 不建议直接饮用仙人掌液体。常识有时候和直觉是相反的。ChatGPT可能会犯这种错误。常识推理的未来更强的推理能力研究者们正在开发更强的推理能力。思维链Chain of Thought让模型一步一步地推理而不是直接给出答案。这大幅提升了常识推理的准确性。与外部知识库的结合未来的模型可能把大语言模型和专门的常识知识库结合起来。大语言模型提供灵活的语言理解和生成 常识知识库提供精确的、可验证的常识 两者结合 既有灵活性又有准确性。最后说一句回到开头的那道题。“一个人把雨伞落在了出租车上。他下车的时候外面正在下雨。请问他接下来最可能做什么”你用了不到一秒钟就给出了答案。ChatGPT也能给出类似的答案。但你们用的方式完全不同。你是从几十年的生活经历里提炼出了这种常识。你真正地被雨淋过丢过东西感受过那种懊恼和无奈。ChatGPT是从几千亿个词里提炼出了这种常识。它读过了无数篇关于下雨、关于丢东西、关于懊恼的文字。它没有被雨淋过没有真正丢过东西没有真正感受过那种懊恼。但它能推理出那个人接下来最可能做什么。这是一种奇妙的能力。不是人类的常识但像人类的常识。不完美但令人惊叹。也许这就足够了。也许这只是开始。