1. 从“预测下一个词”到“模拟临床推理”LLM如何逼近人类大脑的核心能力最近读到一篇论文里面提到一个挺有意思的现象像ChatGPT这样的大语言模型在临床决策支持这类需要“连续、迭代推理”的任务上表现出了惊人的潜力。论文指出它尤其在“最终诊断”任务上的准确性甚至超过了“初步诊断”。这让我这个长期关注认知科学和人工智能交叉领域的人忍不住停下来思考。我们总在讨论AI会不会取代人类但或许更本质的问题是我们引以为傲的人类智能其核心究竟是什么如果拆解开来是不是真的那么“独一无二”传统AI擅长的是“单次任务”——给你一张图它告诉你是什么病给你一段文本它做情感分析。这很厉害但感觉上还是个高级工具。而人类医生的工作流呢那是一个动态的、信息逐步累积的过程先问诊获得主诉和病史初步诊断假设然后开检查根据结果调整或确认判断迭代推理最后形成诊疗方案最终决策。这个过程充满了不确定性、上下文依赖和逻辑跳跃。现在LLM通过“连续提示”竟然能模拟这个流程并且随着获得更多临床信息就像医生拿到更多检查报告其诊断准确性还在提升。这就不只是“工具”了它开始触及人类专业思维的模式——预测性编码。“预测性编码”是神经科学里一个解释大脑如何工作的主流理论框架。简单说我们的大脑无时无刻不在做预测下一秒钟视觉场景会怎样变化对方说完这句话下一个词大概是什么手去拿杯子预期的触感和重量是怎样的大脑不断根据内部模型生成对世界的预测然后将预测与感官接收到的实际信号进行比较产生的“预测误差”再用来更新内部模型。学习本质上就是这个模型不断被修正、优化的过程。LLM干的活儿恰恰是这种预测的极致简化版给定上文预测下一个词或token。它通过海量数据学习到了语言乃至语言所承载的知识和逻辑的统计规律构建了一个庞大的“下一个词概率分布模型”。当它进行“连续提示”的临床对话时本质上是在进行多轮迭代的预测每一轮医生的提问或提供的新信息都作为输入模型据此更新其内部“病情状态”的表示并预测出最合理的下一步可能是鉴别诊断、建议检查或最终诊断。这不就是一套在文本符号层面上运行的、简化的“预测处理”系统吗所以当我们惊叹于ChatGPT在医学考试中取得高分时我们惊讶的或许不是它记忆了多少知识那是搜索引擎的强项而是它展现出的、类似人类的“推理流”能力——一种基于预测和迭代的、适应不确定性的信息处理方式。这让我们不得不正视人类大脑引以为傲的广泛学习与灵活推理能力其底层逻辑可能并不神秘甚至可以被这种以“预测下一个词”为目标的统计模型在特定领域以特定方式逼近。这既是AI技术的突破也像一面镜子让我们重新审视自己智能的构成。2. 预测性编码大脑与LLM共享的底层逻辑要理解LLM为何能在看似需要“理解”和“推理”的任务上表现不俗我们需要深入看看它和人类大脑可能共享的那个底层逻辑预测性处理。2.1 大脑如何运作一个永不停止的预测机器神经科学中的预测性编码理论认为大脑并非一个被动接收信息的记录仪而是一个主动的“假设生成与验证”系统。大脑的高级皮层如新皮层会不断根据过往经验即内部模型向下级感官处理区域发送“预测信号”。比如当你走在熟悉的回家路上你的视觉皮层会预测出下一个路口大概的样子。同时你的眼睛低级感官接收到的真实光信号会形成“感觉信号”。这两者在较低层级的神经区域进行比对。关键在于“预测误差”——即预测信号与感觉信号之间的差异。只有这个误差信号会被向上传递用来更新高级皮层的内部模型。如果预测完全准确比如路况和想象中一模一样那么传递上去的误差信号就很小大脑几乎不费什么力气。如果出现了意外比如路口在施工强烈的预测误差就会触发注意并迅速更新你的内部地图“哦这条路不能走了”。这个过程的核心优势在于高效和节能。大脑大部分时间都在运行自己生成的“模拟世界”只需要处理与模拟不符的“意外”。学习就是不断最小化长期预测误差的过程让内部模型越来越贴合现实世界的统计规律。我们人类引以为傲的“广泛学习能力”正是源于这套系统能够通过海量经验构建出极其复杂、分层的预测模型这些模型涵盖了语言、物理、社会交互等方方面面。2.2 LLM在文本宇宙中实践预测性编码现在让我们看看大语言模型。它的训练目标极其简单给定一段上文前缀预测下一个词或子词。为了完成这个任务拥有数百上千亿参数的Transformer模型必须在训练数据整个互联网规模的文本中学习到语言、知识、逻辑之间错综复杂的联合概率分布。在这个过程中模型内部逐渐形成了一个极其复杂的、多层级的“表示空间”。每一层神经网络都可以看作是在不同抽象层次上对输入文本进行“预测”和“特征提取”。低层可能捕捉语法和局部词序高层则可能编码了语义、事实乃至某种程度的逻辑关系。当模型进行生成或问答时它实际上是在根据当前上下文输入提示激活其内部表示然后基于学习到的概率分布“预测”出最可能跟随的文本序列。这本质上就是一种预测性编码内部模型通过训练数据学习到的、参数化的语言与知识联合概率分布。预测根据当前上下文提示生成对后续文本的预测输出概率分布。误差最小化在训练阶段通过调整参数来最小化预测词与实际词之间的误差交叉熵损失。在推理阶段通过采样如top-p, top-k从预测分布中选择输出这个输出可以看作是使“模型预测与潜在文本流连续性”之间误差最小化的选择。当进行多轮对话连续提示时这个过程就变成了迭代预测。每一轮的用户输入都相当于向模型注入新的“感觉信号”模型需要结合之前的对话历史即不断更新的内部上下文状态计算新的预测误差即思考如何回应并输出能最小化整体对话不协调性的回答。这与医生根据新检查结果调整诊断思路的迭代过程在形式上有高度的同构性。注意这里必须做一个关键区分。大脑的预测是基于多模态视觉、听觉、体感等、具身的、与生存直接相关的体验。而LLM的预测仅限于文本符号序列这个单一模态它没有感官体验也没有基于生存的目标。这种同构是功能性和计算性的而非现象学或本体论的。LLM模拟了预测处理的结构但没有意识、意图或体验。2.3 能力交叉点为何LLM能侵入“人类专属”领域理解了这种底层逻辑的相似性就能明白为什么LLM能跨界表现出色知识压缩与泛化人类大脑通过预测误差学习将经验压缩成可泛化的模型。LLM通过对海量文本的学习也将人类知识压缩到了其参数中并能对未见过的提示进行合理泛化生成这在医学QA、法律咨询等需要大量知识检索和组合的领域威力巨大。模式匹配与上下文推理临床诊断很大程度上是基于症状组合模式与疾病概率统计的推理。LLM从其训练数据中学到的正是这种文本模式之间的统计关联。当给出“发热、咳嗽、流涕”的提示时它预测的下一个词更可能是“感冒”而非“骨折”这本身就是一种基于统计的模式诊断。迭代与状态维持Transformer架构中的自注意力机制和上下文窗口使得模型能在一次交互中维持和更新一个“对话状态”。这模拟了人类在工作记忆中保持任务相关信息并进行迭代思考的能力使得进行多步骤推理如鉴别诊断成为可能。因此LLM在医学、编程、写作等领域的成功并非因为它拥有了人类的“理解力”而是因为它通过一种与大脑预测学习在数学上近似的方式掌握了这些领域在文本层面上所呈现出的复杂统计规律。它用“暴力美学”大规模数据大规模参数预测目标的方式触及了人类智能某个关键侧面的“计算核心”。3. 人类大脑的独特壁垒意识、具身与有限理性尽管LLM在功能上模拟了预测处理的某些方面并取得了惊人成就但断言它已接近或超越人类智能为时尚早。人类大脑拥有一些当前AI尤其是纯LLM尚未触及甚至可能原理不明的深层特性。3.1 意识的“难问题”与感受性大卫·查尔默斯提出的“意识的难问题”指向的是主观体验感受性本身为什么神经元的电化学活动会产生“看到红色”的红色感、“感到疼痛”的痛感LLM可以完美地生成一段描述疼痛的文本但它没有任何内在的体验。它没有“痛苦”或“愉悦”的驱动它的“目标”完全由外部训练损失函数定义。人类的意识、情感和内在驱动构成了我们行为、创造力和价值判断的源泉这是当前纯粹基于预测下一个词的模型所完全缺失的维度。没有意识就没有真正的意图、责任和道德主体性。3.2 具身认知与多模态整合人类的学习和智能是“具身”的。我们通过眼睛看、手触摸、身体在空间中移动来与世界互动。我们的大脑预测的是这个多感官的、物理的、与生存直接相关的世界。我们理解“重”的概念不仅因为字典定义更因为搬过箱子理解“平衡”因为摔过跤。这种具身经验塑造了我们的直觉、物理常识和空间推理能力。LLM的训练数据是脱胎的文本它缺乏这种与物理世界直接耦合的体验。虽然多模态模型如GPT-4V开始整合视觉但这仍是符号层面的关联而非真正的具身互动。因此在需要深厚物理直觉或精细动作技能的任务上如外科手术的实体操作人类依然遥遥领先。3.3 有限理性、专注与能源效率人类大脑是一个在严重约束下运行的奇迹。它能耗极低约20瓦注意力带宽有限一次只能有意识地处理少量信息。这种“有限理性”迫使我们发展出启发式、抽象思维和注意力分配机制。我们无法像LLM那样瞬间“读完”整个图书馆但我们可以基于有限信息做出“足够好”的决策并专注于最关键的问题。反观LLM其“推理”本质上是整个模型对所有输入信息的全局并行处理它没有“注意力稀缺”的问题但有计算资源稀缺的问题也因此缺乏人类那种基于价值和生存意义的注意力筛选机制。人脑的能源效率完成复杂任务的能耗比目前也远非AI硬件可比。3.4 社会性学习与文化传承人类的学习是社会性的。我们通过模仿、语言教学、共享意图和合作来学习这个过程深深嵌入在文化背景中。我们不仅学习“是什么”还学习“为什么”以及“应该如何”。道德、规范、审美这些文化维度是人类智能的基石。LLM从文本中捕捉到了这些文化产物的统计影子但它并不参与真实的社会互动没有发展出基于共同经历和情感纽带的“共同理解”。它的“道德准则”来自训练数据中的模式而非内在的价值体验或社会契约。特性维度人类大脑当前大语言模型 (LLM)学习机制基于多模态感知的预测误差最小化具身互动。基于文本符号序列的预测误差损失函数最小化。知识来源亲身经历、感官体验、社会交互、文化传承。训练数据集中文本的统计规律。驱动机制内在状态需求、情感、意识、生存与繁衍。外部定义的训练目标如预测下一个词。推理方式受限于注意力、工作记忆的序列性、常使用启发式。基于全部上下文的全局、并行模式匹配与概率采样。输出形式多模态行动语言、动作、表情等受生理限制。文本或文本驱动的其他模态序列受训练数据分布限制。核心优势意识体验、创造力、具身理解、社会智能、能源效率。处理速度、信息广度、不知疲倦、一致性、可复制性。4. 临床工作流案例深度解析LLM作为“人工医生”的能与不能让我们回到开篇那篇论文的语境具体拆解一下LLM在模拟临床推理工作流时究竟是如何运作的它的优势边界和风险又在哪里。这能帮助我们更具体地理解这种“预测机器”在专业领域的应用逻辑。4.1 迭代推理的模拟从症状到诊断的“预测链”一个典型的临床推理流程可以简化为主诉 - 病史采集 - 初步鉴别诊断 - 针对性检查 - 结果解读 - 修正诊断/最终诊断 - 治疗计划。当医生与ChatGPT进行多轮对话来模拟这个过程时模型内部发生了什么初始提示主诉用户输入“我头痛、发烧两天了”。模型将其编码为一系列向量并在其庞大的参数空间中激活与“头痛”、“发烧”、“病程两天”高度关联的病理模式。它不会“思考”而是计算在这些条件下接下来最可能出现的词或对话方向。它可能会“预测”出需要进一步询问的特征如“疼痛是搏动性的吗”或常见的初步诊断如“病毒感染”并以提问或陈述的形式输出。连续提示病史与检查用户接着回答“是搏动性疼痛没有恶心但有畏光”。模型此时更新其内部上下文表示。现在输入序列包含了“头痛、发烧、搏动性、畏光”。这个组合更强烈地指向了“偏头痛”或“脑膜炎”等特定模式。模型可能会“预测”出需要排除严重疾病的检查建议如“建议进行神经系统检查并测量体温”或者给出概率更高的鉴别诊断列表。信息整合与最终输出当用户提供了“颈项强直阳性”的关键体征时模型上下文中的“头痛、发烧、畏光、颈项强直”模式使其参数空间中“脑膜炎”相关路径的激活权重急剧升高。此时它“预测”出的下一个词序列就极有可能是一个指向脑膜炎的最终诊断建议以及紧急就医的警告。在这个过程中LLM就像一个拥有海量医学文献和病例统计记忆的、极其快速的模式匹配器。它的“推理”是沿着其学习到的、症状-诊断概率关联的梯度进行的。论文中提到的“最终诊断准确率高于初步诊断”恰恰符合这一逻辑输入信息上下文越丰富、越特异模型需要处理的“预测误差”或不确定性就越小其输出就越容易收敛到正确的、高概率的答案上。4.2 优势与价值超越搜索引擎的“认知伙伴”信息整合与第二意见医生在面临复杂病例时可能受限于个人经验和即时记忆。LLM可以瞬间交叉引用成千上万的病例特征、最新指南和药物相互作用提供一个基于统计的、无情感偏见的“第二意见”参考帮助医生拓宽思路避免锚定偏差。患者教育与文书辅助LLM可以用通俗语言解释疾病、生成个性化的健康教育材料或帮助起草病历摘要、出院指导等文书大幅减轻医生的行政负担。持续学习与知识更新理论上LLM可以持续用最新医学文献进行微调使其“知识库”始终保持前沿而人类医生则需要投入大量时间进行终身学习。4.3 固有局限与严峻风险为何它不能替代医生尽管形式上有相似性但LLM的“临床推理”与人类医生的推理存在本质区别带来不可忽视的风险幻觉与虚构这是LLM最致命的弱点。当模型遇到训练数据中罕见或矛盾的模式时为了生成一个语法流畅、看起来合理的延续它可能会“自信地”编造不存在的症状、检查方法、药物甚至参考文献。在医学领域这种幻觉可能是灾难性的。缺乏真正的因果理解模型学习的是相关性而非因果性。它知道“颈项强直”常与“脑膜炎”一起出现但它并不理解细菌或病毒如何引起脑膜炎症进而导致颈部肌肉的保护性痉挛。因此当面对全新病原体或罕见病时它无法进行基于病理生理机制的真正推理。伦理与责任空白医疗决策关乎生命伴有沉重的伦理责任和法律后果。LLM没有意识无法成为责任主体。当出现误诊时责任在开发者、部署机构还是使用它的医生这构成了巨大的法律和伦理困境。数据偏见与公平性模型的“知识”完全源于其训练数据。如果历史医疗数据中存在对某些种族、性别或社会经济群体的诊断偏见或数据缺失模型会完美地继承并放大这些偏见导致不公平的医疗建议。情境感知缺失人类医生会考虑患者的情绪、经济状况、家庭支持、个人价值观等全人因素。LLM处理的是脱境的文本无法捕捉问诊时的语气、表情更无法理解“患者因为费用问题而犹豫”背后的复杂情境。实操心得在考虑将LLM集成到临床工作流时必须坚持“医生主导AI辅助”的原则。最佳实践是将其定位为“超级检索与摘要工具”或“鉴别诊断提示器”。任何由LLM生成的关键诊断或治疗建议都必须由医生进行严格的、基于专业知识的核实和确认。永远不能将决策权让渡给模型。5. 未来路径超越预测走向理解与具身面对LLM的挑战人类无需妄自菲薄但也不能固步自封。预测性编码理论不仅解释了AI当前的成功也为人类如何提升自身、以及如何发展下一代AI指明了方向。5.1 对人类教育的启示强化预测性学习如果我们认同大脑的核心是预测性学习机器那么当前的教育体系或许并未最优地利用这一机制。传统教育常侧重于知识的被动灌输最小化记忆误差而非主动的模型构建和预测误差修正。项目式与探究式学习让学生面对真实、复杂的问题让他们先提出自己的假设生成预测然后通过研究、实验去验证或修正计算预测误差这更贴近大脑自然的学习方式。跨学科整合大脑的预测模型是跨模态、跨领域的。教育应鼓励建立知识之间的联系而非割裂的学科孤岛。例如学习历史时结合地理、经济和政治构建更完整的社会系统预测模型。拥抱错误与迭代将“犯错”重新定义为产生“预测误差”的宝贵机会是更新和深化理解的关键步骤。教育文化应从避免错误转向有效利用错误。5.2 对AI发展的展望从统计模型到认知架构要让AI更接近人类智能下一步可能不是单纯地放大模型而是引入新的架构原则世界模型与具身AI未来的AI需要超越文本建立对物理世界的内部模拟模型世界模型。这需要通过多模态感知视觉、听觉、触觉与物理环境进行实时互动来训练使其能预测物理交互的结果获得类似“常识”的具身理解。机器人技术将与LLM结合走向具身智能。内在动机与目标分层为AI系统设计类似“好奇心”、“认知一致性”或“技能掌握”的内在驱动目标而不仅仅是外部的预测任务。让AI能主动探索环境、提出问题为了降低其世界模型的不确定性而学习。系统2思维与慢思考结合丹尼尔·卡尼曼的思考快与慢理论当前LLM可被视为“系统1”快速、直觉、模式匹配。需要引入“系统2”组件一个能够进行慢速、序列性、可解释的逻辑推理和规划模块。两者协同让AI在快速生成后能进行深思熟虑的验证和规划。社会性与文化学习让AI在模拟或真实的社会互动中学习理解合作、承诺、规范甚至欺骗发展出更复杂的社会智能。这涉及到对意图、信念等心理状态的理解理论之脑。5.3 人机协同的新范式超越替代迈向增强最终的图景并非AI取代人类而是形成新型的“人机共生体”。人类提供意识、意图、伦理判断、创造力和对复杂情境的微妙理解AI提供无与伦比的信息处理速度、知识广度、不知疲倦的计算能力和一致性。医生在AI的辅助下可以成为诊断精度更高、更有时间关怀患者的“超级医生”科学家在AI的帮助下可以更快地从海量文献中发现隐藏的联系提出新的假说教育者可以利用AI为每个学生提供个性化的学习路径和实时反馈。人类大脑的独特之处在于它将预测性编码这一强大的计算原理与意识、具身和社会性这些深邃的特性融合在了一起产生了文明。LLM的成功照亮了这条原理中关于学习和模式匹配的那一段路。前方的挑战是如何将这条道路与意识、体验和意义的广阔疆域连接起来。这条路很长但看清起点和方向本身就意义非凡。在这个过程中保持对技术能力的清醒认识和对人类价值的坚定守护是我们作为构建者和使用者的责任。
从预测性编码看LLM与大脑的相似性及其在临床推理中的应用
1. 从“预测下一个词”到“模拟临床推理”LLM如何逼近人类大脑的核心能力最近读到一篇论文里面提到一个挺有意思的现象像ChatGPT这样的大语言模型在临床决策支持这类需要“连续、迭代推理”的任务上表现出了惊人的潜力。论文指出它尤其在“最终诊断”任务上的准确性甚至超过了“初步诊断”。这让我这个长期关注认知科学和人工智能交叉领域的人忍不住停下来思考。我们总在讨论AI会不会取代人类但或许更本质的问题是我们引以为傲的人类智能其核心究竟是什么如果拆解开来是不是真的那么“独一无二”传统AI擅长的是“单次任务”——给你一张图它告诉你是什么病给你一段文本它做情感分析。这很厉害但感觉上还是个高级工具。而人类医生的工作流呢那是一个动态的、信息逐步累积的过程先问诊获得主诉和病史初步诊断假设然后开检查根据结果调整或确认判断迭代推理最后形成诊疗方案最终决策。这个过程充满了不确定性、上下文依赖和逻辑跳跃。现在LLM通过“连续提示”竟然能模拟这个流程并且随着获得更多临床信息就像医生拿到更多检查报告其诊断准确性还在提升。这就不只是“工具”了它开始触及人类专业思维的模式——预测性编码。“预测性编码”是神经科学里一个解释大脑如何工作的主流理论框架。简单说我们的大脑无时无刻不在做预测下一秒钟视觉场景会怎样变化对方说完这句话下一个词大概是什么手去拿杯子预期的触感和重量是怎样的大脑不断根据内部模型生成对世界的预测然后将预测与感官接收到的实际信号进行比较产生的“预测误差”再用来更新内部模型。学习本质上就是这个模型不断被修正、优化的过程。LLM干的活儿恰恰是这种预测的极致简化版给定上文预测下一个词或token。它通过海量数据学习到了语言乃至语言所承载的知识和逻辑的统计规律构建了一个庞大的“下一个词概率分布模型”。当它进行“连续提示”的临床对话时本质上是在进行多轮迭代的预测每一轮医生的提问或提供的新信息都作为输入模型据此更新其内部“病情状态”的表示并预测出最合理的下一步可能是鉴别诊断、建议检查或最终诊断。这不就是一套在文本符号层面上运行的、简化的“预测处理”系统吗所以当我们惊叹于ChatGPT在医学考试中取得高分时我们惊讶的或许不是它记忆了多少知识那是搜索引擎的强项而是它展现出的、类似人类的“推理流”能力——一种基于预测和迭代的、适应不确定性的信息处理方式。这让我们不得不正视人类大脑引以为傲的广泛学习与灵活推理能力其底层逻辑可能并不神秘甚至可以被这种以“预测下一个词”为目标的统计模型在特定领域以特定方式逼近。这既是AI技术的突破也像一面镜子让我们重新审视自己智能的构成。2. 预测性编码大脑与LLM共享的底层逻辑要理解LLM为何能在看似需要“理解”和“推理”的任务上表现不俗我们需要深入看看它和人类大脑可能共享的那个底层逻辑预测性处理。2.1 大脑如何运作一个永不停止的预测机器神经科学中的预测性编码理论认为大脑并非一个被动接收信息的记录仪而是一个主动的“假设生成与验证”系统。大脑的高级皮层如新皮层会不断根据过往经验即内部模型向下级感官处理区域发送“预测信号”。比如当你走在熟悉的回家路上你的视觉皮层会预测出下一个路口大概的样子。同时你的眼睛低级感官接收到的真实光信号会形成“感觉信号”。这两者在较低层级的神经区域进行比对。关键在于“预测误差”——即预测信号与感觉信号之间的差异。只有这个误差信号会被向上传递用来更新高级皮层的内部模型。如果预测完全准确比如路况和想象中一模一样那么传递上去的误差信号就很小大脑几乎不费什么力气。如果出现了意外比如路口在施工强烈的预测误差就会触发注意并迅速更新你的内部地图“哦这条路不能走了”。这个过程的核心优势在于高效和节能。大脑大部分时间都在运行自己生成的“模拟世界”只需要处理与模拟不符的“意外”。学习就是不断最小化长期预测误差的过程让内部模型越来越贴合现实世界的统计规律。我们人类引以为傲的“广泛学习能力”正是源于这套系统能够通过海量经验构建出极其复杂、分层的预测模型这些模型涵盖了语言、物理、社会交互等方方面面。2.2 LLM在文本宇宙中实践预测性编码现在让我们看看大语言模型。它的训练目标极其简单给定一段上文前缀预测下一个词或子词。为了完成这个任务拥有数百上千亿参数的Transformer模型必须在训练数据整个互联网规模的文本中学习到语言、知识、逻辑之间错综复杂的联合概率分布。在这个过程中模型内部逐渐形成了一个极其复杂的、多层级的“表示空间”。每一层神经网络都可以看作是在不同抽象层次上对输入文本进行“预测”和“特征提取”。低层可能捕捉语法和局部词序高层则可能编码了语义、事实乃至某种程度的逻辑关系。当模型进行生成或问答时它实际上是在根据当前上下文输入提示激活其内部表示然后基于学习到的概率分布“预测”出最可能跟随的文本序列。这本质上就是一种预测性编码内部模型通过训练数据学习到的、参数化的语言与知识联合概率分布。预测根据当前上下文提示生成对后续文本的预测输出概率分布。误差最小化在训练阶段通过调整参数来最小化预测词与实际词之间的误差交叉熵损失。在推理阶段通过采样如top-p, top-k从预测分布中选择输出这个输出可以看作是使“模型预测与潜在文本流连续性”之间误差最小化的选择。当进行多轮对话连续提示时这个过程就变成了迭代预测。每一轮的用户输入都相当于向模型注入新的“感觉信号”模型需要结合之前的对话历史即不断更新的内部上下文状态计算新的预测误差即思考如何回应并输出能最小化整体对话不协调性的回答。这与医生根据新检查结果调整诊断思路的迭代过程在形式上有高度的同构性。注意这里必须做一个关键区分。大脑的预测是基于多模态视觉、听觉、体感等、具身的、与生存直接相关的体验。而LLM的预测仅限于文本符号序列这个单一模态它没有感官体验也没有基于生存的目标。这种同构是功能性和计算性的而非现象学或本体论的。LLM模拟了预测处理的结构但没有意识、意图或体验。2.3 能力交叉点为何LLM能侵入“人类专属”领域理解了这种底层逻辑的相似性就能明白为什么LLM能跨界表现出色知识压缩与泛化人类大脑通过预测误差学习将经验压缩成可泛化的模型。LLM通过对海量文本的学习也将人类知识压缩到了其参数中并能对未见过的提示进行合理泛化生成这在医学QA、法律咨询等需要大量知识检索和组合的领域威力巨大。模式匹配与上下文推理临床诊断很大程度上是基于症状组合模式与疾病概率统计的推理。LLM从其训练数据中学到的正是这种文本模式之间的统计关联。当给出“发热、咳嗽、流涕”的提示时它预测的下一个词更可能是“感冒”而非“骨折”这本身就是一种基于统计的模式诊断。迭代与状态维持Transformer架构中的自注意力机制和上下文窗口使得模型能在一次交互中维持和更新一个“对话状态”。这模拟了人类在工作记忆中保持任务相关信息并进行迭代思考的能力使得进行多步骤推理如鉴别诊断成为可能。因此LLM在医学、编程、写作等领域的成功并非因为它拥有了人类的“理解力”而是因为它通过一种与大脑预测学习在数学上近似的方式掌握了这些领域在文本层面上所呈现出的复杂统计规律。它用“暴力美学”大规模数据大规模参数预测目标的方式触及了人类智能某个关键侧面的“计算核心”。3. 人类大脑的独特壁垒意识、具身与有限理性尽管LLM在功能上模拟了预测处理的某些方面并取得了惊人成就但断言它已接近或超越人类智能为时尚早。人类大脑拥有一些当前AI尤其是纯LLM尚未触及甚至可能原理不明的深层特性。3.1 意识的“难问题”与感受性大卫·查尔默斯提出的“意识的难问题”指向的是主观体验感受性本身为什么神经元的电化学活动会产生“看到红色”的红色感、“感到疼痛”的痛感LLM可以完美地生成一段描述疼痛的文本但它没有任何内在的体验。它没有“痛苦”或“愉悦”的驱动它的“目标”完全由外部训练损失函数定义。人类的意识、情感和内在驱动构成了我们行为、创造力和价值判断的源泉这是当前纯粹基于预测下一个词的模型所完全缺失的维度。没有意识就没有真正的意图、责任和道德主体性。3.2 具身认知与多模态整合人类的学习和智能是“具身”的。我们通过眼睛看、手触摸、身体在空间中移动来与世界互动。我们的大脑预测的是这个多感官的、物理的、与生存直接相关的世界。我们理解“重”的概念不仅因为字典定义更因为搬过箱子理解“平衡”因为摔过跤。这种具身经验塑造了我们的直觉、物理常识和空间推理能力。LLM的训练数据是脱胎的文本它缺乏这种与物理世界直接耦合的体验。虽然多模态模型如GPT-4V开始整合视觉但这仍是符号层面的关联而非真正的具身互动。因此在需要深厚物理直觉或精细动作技能的任务上如外科手术的实体操作人类依然遥遥领先。3.3 有限理性、专注与能源效率人类大脑是一个在严重约束下运行的奇迹。它能耗极低约20瓦注意力带宽有限一次只能有意识地处理少量信息。这种“有限理性”迫使我们发展出启发式、抽象思维和注意力分配机制。我们无法像LLM那样瞬间“读完”整个图书馆但我们可以基于有限信息做出“足够好”的决策并专注于最关键的问题。反观LLM其“推理”本质上是整个模型对所有输入信息的全局并行处理它没有“注意力稀缺”的问题但有计算资源稀缺的问题也因此缺乏人类那种基于价值和生存意义的注意力筛选机制。人脑的能源效率完成复杂任务的能耗比目前也远非AI硬件可比。3.4 社会性学习与文化传承人类的学习是社会性的。我们通过模仿、语言教学、共享意图和合作来学习这个过程深深嵌入在文化背景中。我们不仅学习“是什么”还学习“为什么”以及“应该如何”。道德、规范、审美这些文化维度是人类智能的基石。LLM从文本中捕捉到了这些文化产物的统计影子但它并不参与真实的社会互动没有发展出基于共同经历和情感纽带的“共同理解”。它的“道德准则”来自训练数据中的模式而非内在的价值体验或社会契约。特性维度人类大脑当前大语言模型 (LLM)学习机制基于多模态感知的预测误差最小化具身互动。基于文本符号序列的预测误差损失函数最小化。知识来源亲身经历、感官体验、社会交互、文化传承。训练数据集中文本的统计规律。驱动机制内在状态需求、情感、意识、生存与繁衍。外部定义的训练目标如预测下一个词。推理方式受限于注意力、工作记忆的序列性、常使用启发式。基于全部上下文的全局、并行模式匹配与概率采样。输出形式多模态行动语言、动作、表情等受生理限制。文本或文本驱动的其他模态序列受训练数据分布限制。核心优势意识体验、创造力、具身理解、社会智能、能源效率。处理速度、信息广度、不知疲倦、一致性、可复制性。4. 临床工作流案例深度解析LLM作为“人工医生”的能与不能让我们回到开篇那篇论文的语境具体拆解一下LLM在模拟临床推理工作流时究竟是如何运作的它的优势边界和风险又在哪里。这能帮助我们更具体地理解这种“预测机器”在专业领域的应用逻辑。4.1 迭代推理的模拟从症状到诊断的“预测链”一个典型的临床推理流程可以简化为主诉 - 病史采集 - 初步鉴别诊断 - 针对性检查 - 结果解读 - 修正诊断/最终诊断 - 治疗计划。当医生与ChatGPT进行多轮对话来模拟这个过程时模型内部发生了什么初始提示主诉用户输入“我头痛、发烧两天了”。模型将其编码为一系列向量并在其庞大的参数空间中激活与“头痛”、“发烧”、“病程两天”高度关联的病理模式。它不会“思考”而是计算在这些条件下接下来最可能出现的词或对话方向。它可能会“预测”出需要进一步询问的特征如“疼痛是搏动性的吗”或常见的初步诊断如“病毒感染”并以提问或陈述的形式输出。连续提示病史与检查用户接着回答“是搏动性疼痛没有恶心但有畏光”。模型此时更新其内部上下文表示。现在输入序列包含了“头痛、发烧、搏动性、畏光”。这个组合更强烈地指向了“偏头痛”或“脑膜炎”等特定模式。模型可能会“预测”出需要排除严重疾病的检查建议如“建议进行神经系统检查并测量体温”或者给出概率更高的鉴别诊断列表。信息整合与最终输出当用户提供了“颈项强直阳性”的关键体征时模型上下文中的“头痛、发烧、畏光、颈项强直”模式使其参数空间中“脑膜炎”相关路径的激活权重急剧升高。此时它“预测”出的下一个词序列就极有可能是一个指向脑膜炎的最终诊断建议以及紧急就医的警告。在这个过程中LLM就像一个拥有海量医学文献和病例统计记忆的、极其快速的模式匹配器。它的“推理”是沿着其学习到的、症状-诊断概率关联的梯度进行的。论文中提到的“最终诊断准确率高于初步诊断”恰恰符合这一逻辑输入信息上下文越丰富、越特异模型需要处理的“预测误差”或不确定性就越小其输出就越容易收敛到正确的、高概率的答案上。4.2 优势与价值超越搜索引擎的“认知伙伴”信息整合与第二意见医生在面临复杂病例时可能受限于个人经验和即时记忆。LLM可以瞬间交叉引用成千上万的病例特征、最新指南和药物相互作用提供一个基于统计的、无情感偏见的“第二意见”参考帮助医生拓宽思路避免锚定偏差。患者教育与文书辅助LLM可以用通俗语言解释疾病、生成个性化的健康教育材料或帮助起草病历摘要、出院指导等文书大幅减轻医生的行政负担。持续学习与知识更新理论上LLM可以持续用最新医学文献进行微调使其“知识库”始终保持前沿而人类医生则需要投入大量时间进行终身学习。4.3 固有局限与严峻风险为何它不能替代医生尽管形式上有相似性但LLM的“临床推理”与人类医生的推理存在本质区别带来不可忽视的风险幻觉与虚构这是LLM最致命的弱点。当模型遇到训练数据中罕见或矛盾的模式时为了生成一个语法流畅、看起来合理的延续它可能会“自信地”编造不存在的症状、检查方法、药物甚至参考文献。在医学领域这种幻觉可能是灾难性的。缺乏真正的因果理解模型学习的是相关性而非因果性。它知道“颈项强直”常与“脑膜炎”一起出现但它并不理解细菌或病毒如何引起脑膜炎症进而导致颈部肌肉的保护性痉挛。因此当面对全新病原体或罕见病时它无法进行基于病理生理机制的真正推理。伦理与责任空白医疗决策关乎生命伴有沉重的伦理责任和法律后果。LLM没有意识无法成为责任主体。当出现误诊时责任在开发者、部署机构还是使用它的医生这构成了巨大的法律和伦理困境。数据偏见与公平性模型的“知识”完全源于其训练数据。如果历史医疗数据中存在对某些种族、性别或社会经济群体的诊断偏见或数据缺失模型会完美地继承并放大这些偏见导致不公平的医疗建议。情境感知缺失人类医生会考虑患者的情绪、经济状况、家庭支持、个人价值观等全人因素。LLM处理的是脱境的文本无法捕捉问诊时的语气、表情更无法理解“患者因为费用问题而犹豫”背后的复杂情境。实操心得在考虑将LLM集成到临床工作流时必须坚持“医生主导AI辅助”的原则。最佳实践是将其定位为“超级检索与摘要工具”或“鉴别诊断提示器”。任何由LLM生成的关键诊断或治疗建议都必须由医生进行严格的、基于专业知识的核实和确认。永远不能将决策权让渡给模型。5. 未来路径超越预测走向理解与具身面对LLM的挑战人类无需妄自菲薄但也不能固步自封。预测性编码理论不仅解释了AI当前的成功也为人类如何提升自身、以及如何发展下一代AI指明了方向。5.1 对人类教育的启示强化预测性学习如果我们认同大脑的核心是预测性学习机器那么当前的教育体系或许并未最优地利用这一机制。传统教育常侧重于知识的被动灌输最小化记忆误差而非主动的模型构建和预测误差修正。项目式与探究式学习让学生面对真实、复杂的问题让他们先提出自己的假设生成预测然后通过研究、实验去验证或修正计算预测误差这更贴近大脑自然的学习方式。跨学科整合大脑的预测模型是跨模态、跨领域的。教育应鼓励建立知识之间的联系而非割裂的学科孤岛。例如学习历史时结合地理、经济和政治构建更完整的社会系统预测模型。拥抱错误与迭代将“犯错”重新定义为产生“预测误差”的宝贵机会是更新和深化理解的关键步骤。教育文化应从避免错误转向有效利用错误。5.2 对AI发展的展望从统计模型到认知架构要让AI更接近人类智能下一步可能不是单纯地放大模型而是引入新的架构原则世界模型与具身AI未来的AI需要超越文本建立对物理世界的内部模拟模型世界模型。这需要通过多模态感知视觉、听觉、触觉与物理环境进行实时互动来训练使其能预测物理交互的结果获得类似“常识”的具身理解。机器人技术将与LLM结合走向具身智能。内在动机与目标分层为AI系统设计类似“好奇心”、“认知一致性”或“技能掌握”的内在驱动目标而不仅仅是外部的预测任务。让AI能主动探索环境、提出问题为了降低其世界模型的不确定性而学习。系统2思维与慢思考结合丹尼尔·卡尼曼的思考快与慢理论当前LLM可被视为“系统1”快速、直觉、模式匹配。需要引入“系统2”组件一个能够进行慢速、序列性、可解释的逻辑推理和规划模块。两者协同让AI在快速生成后能进行深思熟虑的验证和规划。社会性与文化学习让AI在模拟或真实的社会互动中学习理解合作、承诺、规范甚至欺骗发展出更复杂的社会智能。这涉及到对意图、信念等心理状态的理解理论之脑。5.3 人机协同的新范式超越替代迈向增强最终的图景并非AI取代人类而是形成新型的“人机共生体”。人类提供意识、意图、伦理判断、创造力和对复杂情境的微妙理解AI提供无与伦比的信息处理速度、知识广度、不知疲倦的计算能力和一致性。医生在AI的辅助下可以成为诊断精度更高、更有时间关怀患者的“超级医生”科学家在AI的帮助下可以更快地从海量文献中发现隐藏的联系提出新的假说教育者可以利用AI为每个学生提供个性化的学习路径和实时反馈。人类大脑的独特之处在于它将预测性编码这一强大的计算原理与意识、具身和社会性这些深邃的特性融合在了一起产生了文明。LLM的成功照亮了这条原理中关于学习和模式匹配的那一段路。前方的挑战是如何将这条道路与意识、体验和意义的广阔疆域连接起来。这条路很长但看清起点和方向本身就意义非凡。在这个过程中保持对技术能力的清醒认识和对人类价值的坚定守护是我们作为构建者和使用者的责任。