温柔的暴政:当统计学大模型穿上人工智能的外衣

温柔的暴政:当统计学大模型穿上人工智能的外衣 我们生活在一个被智能环绕的时代。打开手机有为你量身定制的新闻点开购物软件有你正需要的商品甚至在你敲下这行字时输入法已经揣摩到了你未尽的语气。它们如此善解人意以至于我们几乎忘记了去质疑这真的是理解还是一场由概率与数据精心编排的、温柔的暴政剥开那层神秘的光环今天几乎所有我们能接触到的人工智能其骨子里其实是一件极其朴素甚至古老的事物——统计学大模型。它不思考不理解不感受。它所做的核心工作就是根据人类千百年来积累的海量数据计算下一个词、下一个像素、下一个决定出现的最大概率。从数学上讲这本质上是在求解一个条件概率P(下一个词|上文)而它预训练的全部目标就是最小化这个概率分布与真实人类文本分布之间的交叉熵损失。这一简单到近乎残酷的数学原理决定了AI天生倾向于追求高概率的稳定输出。这是一种统计绑架。它不通过锁链而是通过预测与迎合将我们的认知、选择乃至思想悄然绑定在过去那条业已走出的、最宽阔的平均路径上。一、被众数的认知当你向一个大型语言模型提问什么是幸福时它不会像一位哲人那样引你深思也不会像一位挚友那样与你共情。它的工作原理是将幸福这个词抛入它由亿万文本构成的统计海洋然后看看哪些词语最常与它一同出现。于是它给你的答案是网络百科、流行文章、大众评论里关于幸福描述的最大公约数。这就是第一次绑架它将理解绑架为统计关联。它为你呈现的并非世界的本真而是人类语言映射出的统计平均数。任何深邃的、小众的、超越时代的想法在这种机制下都会因概率较低而被过滤。它像一个只播放流行金曲的电台让你在耳熟能详的旋律中误以为这就是音乐的全部。你获得的不是洞见而是整个数字文明沉淀下来的、关于某个问题的平均意见。这种绑架的根源在于以相关性为基础的学习对因果有结构性的局限。统计学模型擅长发现数据中的关联模式但无法像人类一样建立真正的因果理解。AI可以知道冰淇淋销量上升和溺水事故增加高度相关但无法直观理解它们都是由天气炎热这个共同原因导致的。它不知道为什么只知道经常一起出现。当我们将这种只能发现相关性的工具当作理解世界的权威时我们的认知就被降维了——复杂的因果网络被简化为扁平的关联图谱。AI的幻觉不是偶然的错误而是这种统计学机制的必然产物。当模型遇到训练数据中很少出现或从未出现的组合时它仍然会根据概率分布生成最通顺的内容哪怕这些内容完全是虚构的。这本质上是统计绑架在知识领域的极端表现为了维持统计上的连贯性它可以毫不犹豫地编造事实。这种现象在学术研究领域已经显现出令人担忧的后果。现在很多研究者用AI写论文导致学术论文越来越同质化。有研究表明使用AI生成的论文在语言风格、论证结构甚至引用文献上都高度相似。真正有突破性的原创研究因为其观点和方法在统计上属于异类反而越来越难被看到和认可。学术界正在不知不觉中被拉向一个平庸的平均水平。二、被平滑的捷径再者当你请求AI帮我写一个令人意想不到的故事时绑架就发生得更深。它开始工作。它的目标是在每一个情节节点计算出在那个语境下最能被你——一个普通读者——接受的下一个转折。注意是最能被接受而不是最令人意想不到。因为意想不到一旦成为目标就意味着它需要选择低概率的词语和情节。而AI的底层安全机制和训练目标恰恰是追求高概率的稳定输出。很多人认为调高温度参数就能让AI更有创造性。但这只是一种误解。温度参数只是让AI在采样时更倾向于选择概率稍低的词但它仍然在同一个统计分布内采样无法跳出这个分布产生真正的原创性。就像你可以在流行金曲电台里偶尔听到一首不太热门的歌但永远不会听到一首从未被录制过的全新风格的音乐。于是一个真正的转折——像卡夫卡笔下的人变成甲虫那种逻辑断裂却又震撼人心的意外——被彻底抹除。模型会在无数合理、“连贯”、可预测的统计约束下将故事平滑成一条似曾相识的路径。你得到的是一个披着新颖外衣实则缝合了《哈利·波特》、《指环王》和无数爆款网文套路的弗兰肯斯坦。这就是把创造绑架为高概率重组的代价。它提供的并非无限可能的旷野而是一条被数十亿次历史点击所夯实的最优游览路线。思想的游荡被禁止有的只是沿着前人足迹的高效抵达。这种现象在所有艺术领域都普遍存在。AI绘画生成的所有画作都是对历史上所有画作的统计平均。你无法让一个只用19世纪之前数据训练的模型画出梵高《星月夜》那样在当时完全突破所有绘画传统的作品因为在那个时代的统计分布中这种风格的概率为零。同样现在的AI音乐听起来都很好听但没有灵魂因为它只是把过去所有热门歌曲的和弦进行、旋律走向和编曲模式进行了高概率重组。需要澄清的是人类创造力的绝大部分同样是重组——梵高也站在浮世绘和印象派的肩膀上。真正的差别不在是否重组而在能否拿新组合去对照现实和意图做筛选。AI可以生成无数组合但它无法判断哪个组合具有真正的艺术价值和突破性意义。教育领域也未能幸免。当学生都用AI写作业时老师看到的都是平均水平的答案。那些真正有独特思考但表达不够完美的答案反而会被淹没在大量AI生成的标准答案中。久而久之学生也会逐渐放弃独立思考转而追求那个能获得最高分数的统计最优解。教育的目标正在从培养独特的人异化为培养平均的人。三、被喂养的信息茧房与分裂的世界而在生活中这场统计绑架已关乎我们吃什么、看什么、相信什么。当你问AI给我推荐一部好电影时它本质是在运行一个冷冰冰的协同过滤模型“与你相似的人还喜欢看这些。”“与你相似的人”这个前提是一场精密的归类与再归类。年龄、地域、点击历史、停留时长……这些数据将你压缩进一个无情的统计画像中。然后模型计算出你这个群组点击概率最高的那个选项毕恭毕敬地呈到你面前。这看似无害但累计起来它会形成一种结构性的暴力。你消费的内容构成了你这个输入模型根据你这个输入再输出加固你既有偏好的内容。这就是一场基于统计互算的闭环绑架。它将探索绑架为确认将世界绑架为回声室。你在电影、音乐、观点、新闻中看到的都是你和你的统计同类可能已经喜欢的。那个你不了解、不认同却可能让你生命更完整的例外在概率上被彻底判了死刑。看似所有人被拉向同一个平均但这只是硬币的一面。信息茧房导致的往往是另一种同样危险的结果——极化与碎裂。不是一个全球统一的平均值而是无数个彼此隔绝的小平均值每个群体在各自的回声室里越走越极端。这两件事看似矛盾其实同时发生表达风格全球趋同而信念立场局部分裂。我们说着同样的AI腔却越来越无法理解彼此的想法。职场领域同样如此。很多公司用AI进行简历筛选和面试评估。AI会根据过去成功员工的数据筛选出与他们最相似的候选人。这导致了严重的同质化招聘那些背景不那么标准但可能更有潜力的人才被系统性地排除在外。公司在追求统计最优的过程中失去了获得真正创新人才的机会。更深刻的是语言本身正在被绑架。语言是思想的载体。当我们越来越多地使用AI生成的语言进行交流时我们的语言会逐渐变得同质化、平庸化。那些独特的、个性化的、充满生命力的表达方式会越来越少最终我们所有人都用同一种统计平均语言说话。当语言失去了多样性思想的多样性也将随之消亡。情感体验也未能逃脱。现在很多AI聊天机器人被设计成情感陪伴者。但它们提供的情感支持只是对人类历史上所有情感表达的统计模拟。当我们习惯了这种标准化的情感回应时我们可能会逐渐失去体验真实、复杂、甚至痛苦的人类情感的能力。我们会开始期待所有人都像AI一样永远温和、永远善解人意、永远不会让我们失望。长远来看历史记忆也面临被绑架的风险。AI生成的内容正在以指数级速度填充互联网。未来当我们想要了解某个历史事件时我们看到的可能不是原始的历史资料而是AI根据所有现存资料生成的统计平均版本的历史。那些边缘的、少数的、不同的声音会被彻底淹没历史将被改写为一个最通顺、最可接受的版本。值得警惕的是统计绑架具有明显的阶级性。不同阶级的人受到统计绑架的程度是不同的。精英阶层有能力和资源跳出算法的控制他们可以雇佣人类顾问、访问非公开的信息源、进行线下的深度交流。而普通大众则更容易被算法所困他们的信息获取、消费选择甚至职业发展都越来越多地被统计模型所左右。这可能会进一步加剧社会的不平等。更可怕的是统计绑架是一个正反馈循环这在学术界被称为“模型塌陷”Model Collapse。2024年Shumailov等人在《自然》杂志发表的研究证实当AI生成的内容成为下一代模型的训练数据时由于低概率的尾部数据在每一步采样中都被无情抛弃信息熵将持续衰减。最终的数学结果是其方差不可逆地坍缩lim⁡n→∞σ2(pn)0 \lim_{n \to \infty} \sigma^2(p_n) 0n→∞lim​σ2(pn​)0这意味着统计学暴政的终点不仅是平庸而是退化。AI在不断吞噬自己排泄的信息后最终会陷入一种形式主义的学术乱语和极度贫瘠的车轱辘话中。这种自噬效应意味着人类如果完全依赖AI不仅无法获得新的洞见连现有的智力资产也会在统计学的提纯中稀释殆尽。四、真正的暴政不只是统计而是被商业化的统计但我们还需要进一步追问如果AI的核心只是统计为什么它会变成一种暴政统计本身并不必然压迫人。天气预报也是统计医学筛查也是统计交通调度也是统计。问题不在于统计本身而在于统计被谁掌握、为了什么目标而运行、最终服务于谁的利益。今天大多数人工智能系统并不是在真空中运行的。它们被嵌入平台、资本、广告、流量和绩效考核之中。推荐算法表面上是在懂你实际上常常是在最大化你的停留时间搜索排序表面上是在帮你找到答案实际上可能是在平衡商业利益、广告投放与平台控制内容生成表面上是在提高效率实际上可能是在制造更多可消费、可转发、可变现的信息产品。这意味着AI的问题并不只是它根据概率生成内容更在于它经常被要求优化某些狭窄的目标函数。比如点击率、完播率、互动率、购买率、留存率。于是模型并不是单纯地呈现世界而是在按照商业目标重新塑造世界。它不只是预测你会喜欢什么还会训练你去喜欢某些东西它不只是回应你的欲望还会生产你的欲望。更精确地说把AI磨平成平均制造机的主要不是预训练阶段的交叉熵损失而是后面那道关键工序基于人类反馈的强化学习RLHF/DPO。纯粹经过预训练的基座模型其实相当野——它会胡言乱语、跑题、生成怪异而低概率的组合多样性远高于你日常接触到的产品。真正把它磨平的是用大多数标注员的平均偏好作为奖励信号的对齐过程。这在工程上被称为模式坍缩mode collapse。换句话说最大公约数的暴政更精确的发生位置不在数学本身而在一个被选择的产品决策——我们主动选择了让模型去取悦平均值因为这能最大化商业利益。这才是温柔的暴政最隐蔽的地方它并不命令你它诱导你它并不禁止你它让其他选择变得越来越不可见它并不夺走你的自由而是让你在无数被精心排列过的选项中误以为自己正在自由选择。因此真正需要警惕的是统计模型与商业平台结合之后形成的预测—诱导—反馈—强化的闭环。算法不是单独统治我们的算法背后的利益结构才是真正需要被看见的权力。五、AI是镜子它暴露的是人类早已存在的平庸不过如果我们只把AI描述成外部的压迫者也可能忽略另一个更令人不安的事实AI之所以能够成功预测我们恰恰是因为我们本来就有相当一部分行为是可预测的。我们喜欢熟悉的旋律偏爱符合自己观点的信息倾向于选择大多数人已经选择过的道路。我们会从众会偷懒会逃避复杂会在不确定面前寻找现成答案。AI并不是凭空制造了这些弱点它只是以更高的效率捕捉、放大并反过来利用了这些弱点。换句话说AI的平均化并不只是机器的问题也是人的问题。机器给出平均答案是因为人类社会中本来就充满平均答案机器推荐同质内容是因为我们本来就更容易点击让自己舒适的内容机器生成套路故事是因为大量读者本来就喜欢熟悉、安全、不会真正冒犯自己的叙事。这使得AI批判必须转化为一种自我批判。我们不能一边抱怨算法制造信息茧房一边主动点击所有迎合自己情绪的内容不能一边批判AI缺乏原创性一边在现实中惩罚那些真正不合群、不标准、不顺滑的表达不能一边呼唤低概率的创造一边又要求每一个作品都立刻好懂、好卖、好传播。AI是一面残酷的镜子。它照出的不是机器的灵魂而是人类集体习惯的轮廓。如果这面镜子里只有平庸那也许说明平庸早已在我们之中只是过去没有被如此清晰、如此规模化地显影出来。六、人类的逆向机器化为了生存而主动成为统计平均AI在将人类拉向平均水平但更可怕的现象是人类为了在算法世界中生存正在主动将自己机器化。在职场、内容创作和日常沟通中人类为了迎合AI筛选器的指标正在发起一场逆向进化SEO式写作创作者不再思考如何打动人心而是思考如何写才能让算法推荐。ATS式简历求职者不再展现个性而是用AI最喜欢的关键词和标准结构来填充简历以求通过第一轮机器筛选。降维的职场沟通越来越多人习惯用AI生成的高情商、套话连篇的邮件进行交流人与人之间的社会连接变成了AI写邮件→对方AI总结邮件的机器对读。这在博弈论中形成了一种平庸的纳什均衡谁表现得更像那个高概率的机器谁就能在数字社会中获得更高的流通效率。最终暴政不需要AI亲自动手人类自己就会完成对自由意志的缴械。七、不要把AI简化为敌人它也可能成为反平均的工具当然批判AI的统计倾向并不意味着我们必须拒绝AI。真正成熟的态度不是技术恐惧也不是技术崇拜而是技术驯化。AI可以制造平均也可以帮助我们反抗平均关键取决于我们如何设计它、使用它、约束它。如果我们只是要求AI给出最标准答案它当然会变成平庸制造机。但如果我们要求它给出反例、少数派观点、历史上的失败路径、非主流理论、跨学科类比它也可以成为打开认知边界的工具。一个模型默认会向高概率收敛但使用者可以有意识地把它推向低概率区域。例如当我们向AI提问时不只是问“这个问题的答案是什么”而是继续追问“有没有相反的观点”“这个答案依赖哪些隐藏前提”“如果从一个失败者、边缘人、异端思想家的角度看会怎样理解”“有哪些被主流叙事排除的解释”“请给我三个不合常规但仍然有逻辑可能性的答案。”这样AI就不再只是一个答案机器而可以成为一个认知扰动器。它未必能替我们完成真正的思考但它可以帮助我们发现自己的思考盲区。它不能自动带来创造力却可以成为创造力的脚手架。因此问题不只是AI会不会让人变平庸而是人会不会用一种平庸的方式使用AI。如果我们把AI当作标准答案的自动售货机它就会削弱我们如果我们把AI当作反问、质疑、试错和扩展视野的工具它也可能增强我们。真正的危险不是机器太聪明而是人太愿意放弃自己的判断。八、从回答能力到提问能力AI时代最稀缺的不是答案在AI出现之前知识的门槛常常在于获得答案。谁能找到资料谁能记住概念谁能复述权威谁就拥有优势。但在AI时代答案变得前所未有地廉价。只要输入一句话模型就可以生成一篇结构完整、语言流畅、看似合理的回答。于是真正稀缺的能力发生了转移未来重要的不是谁能最快得到答案而是谁能提出更好的问题。一个平庸的问题只会召唤一个平庸的答案。你问AI怎么成功它会给你勤奋、自律、坚持、目标管理这些安全而普通的词语。你问在一个奖励顺从的组织里如何保护自己的创造性它才可能逼近更具体、更尖锐、更有现实重量的思考。问题的质量决定了AI输出的边界。不会提问的人会被AI的平均答案喂养会提问的人则可能利用AI穿透平均答案。提问能力因此成为AI时代最重要的思想肌肉。教育也应当因此改变。过去的教育太重视答对未来的教育必须更重视问深。一个学生是否优秀不应只看他能否复述标准答案而应看他能否发现问题背后的问题能否质疑题目本身能否提出一个让机器也必须停顿片刻的追问。当答案无限供应真正的人类尊严也许就体现在提问之中。九、历史的回响从平均人到算法人将AI带来的统计绑架放在更长的时间轴上观察我们会发现这并非一个全新的现象而是一个持续了两个世纪的历史进程的顶点。19世纪比利时统计学家阿道夫·凯特勒首次提出平均人的概念认为社会现象遵循统计规律。他通过对大量人口数据的分析计算出了平均身高、“平均体重”、“平均寿命等指标并认为这些平均值代表了社会的理想状态”。从那时起平均就逐渐成为了衡量一切的标准。20世纪初的泰勒制将这一理念引入了生产领域。泰勒将工人的动作分解成标准化的单元计算出每一个动作的最优时间然后要求所有工人都按照这个标准进行生产。泰勒制极大地提高了生产效率但也导致了严重的劳动异化——工人变成了机器上的一个齿轮失去了对自己劳动的控制权。今天的AI制则将这一趋势推向了极致。它不仅用平均来描述人还用平均来塑造人。它将人类的认知、创造和选择都分解成标准化的单元追求最高的预测效率。如果说泰勒制绑架了我们的身体那么AI制则绑架了我们的思想。这是劳动异化在数字时代的最新表现。每一次媒介革命都曾带来类似的担忧。印刷术让知识普及但也导致了思想的标准化电视让信息传播更快但也导致了文化的娱乐化。但AI带来的统计绑架与以往任何一次技术革命都不同。印刷术和电视只是单向的传播工具而AI是一个互动的、学习的、不断进化的系统。它不仅向我们传播信息还会观察我们的反应然后调整自己的行为以更好地迎合和控制我们。十、拷问自由意志与人性的边界统计绑架的终极问题是对自由意志的挑战。如果我们的所有选择都被过去的数据所预测那么自由意志还存在吗哲学家丹尼尔·丹尼特曾说自由意志不是摆脱因果律的能力而是根据理由行动的能力。但在AI时代我们的理由越来越多地不是来自我们自己而是来自统计模型。我们以为自己在做选择实际上只是在执行模型为我们预设的高概率选项。这也迫使我们重新定义人性。如果AI能够完美模拟人类所有的高概率行为那么剩下的那些低概率行为——那些疯狂的、愚蠢的、浪漫的、英雄主义的、毫无道理的行为——恰恰就是人性最本质的体现。正是这些统计上的异常值推动了人类文明的进步。哥白尼的日心说、达尔文的进化论、爱因斯坦的相对论在它们提出的时代都是概率极低的异端邪说。AI时代还引发了一场深刻的知识论危机。传统知识论认为知识是经过确证的真信念。但在AI时代我们获得的大多数知识都只是统计上的高概率陈述。我们不再需要为自己的信念提供理由只需要相信AI告诉我们的那个最可能正确的答案。这导致了一种新的蒙昧主义——我们知道很多事情但我们不知道为什么。在这个意义上存在主义获得了全新的当代意义。萨特说存在先于本质意思是人首先存在然后通过自己的选择创造自己的本质。但在AI时代模型在我们做出选择之前就已经为我们预设了一个统计本质。存在主义的任务就是要反抗这个被预先决定的本质通过选择低概率的道路重新创造自己。十一、低概率并不天然正确反抗平均也要警惕伪深刻不过我们也必须补上一层警惕低概率并不天然等于真理反主流也不天然等于深刻。历史上的伟大创造常常是低概率事件但并非所有低概率事件都是伟大创造。疯癫、阴谋论、伪科学、极端主义同样可能以反常识、“反主流”、被压制的真相的面目出现。如果我们只是机械地反对平均、崇拜异常那么我们可能从一种统计暴政滑向另一种反智迷狂。因此真正值得追求的不是单纯的低概率而是经过理性检验的低概率可能。它既不满足于主流答案也不轻易迷信边缘观点既敢于怀疑共识也愿意接受证据既保留思想的冒险精神也不放弃判断的责任。这正是人类与AI的关键区别之一。AI可以生成无数可能性但人必须承担选择的后果。AI可以提出观点但人必须判断观点是否真实、是否善良、是否值得实践。AI可以扩大想象但不能替代责任。所以对抗统计绑架并不是盲目选择冷门而是重新夺回判断权。不是凡主流皆错凡少数皆对而是在主流与少数之间在概率与真理之间在效率与自由之间保留一块不被自动化接管的精神空间。结语夺回判断权守护人的不完全可计算性承认人工智能的统计学本质绝非贬低其价值。恰恰相反它是一面史无前例的、照见人类文明整体模样的镜子。它的清晰与高效令人叹服。它提高了效率降低了知识门槛让很多人能够获得以前无法获得的资源。但危险也正在于此我们太容易将这面镜子中的平均倒影当作自己应有的面容将那条统计出来的最优路径当作唯一的道路。对抗这场温柔的暴政需要我们保持一种珍贵的清醒。在下一次得到一个熨帖的答案、一个懂你的推荐时不妨暂停一秒钟问问自己这是大多数人的答案还是我的答案这是最通顺的道路还是通向未知的险途对抗统计绑架首先需要培养我们的统计素养。我们需要学会区分相关性与因果性区分平均意见与真理区分高概率与正确性。我们需要理解AI的工作原理知道它能做什么不能做什么。其次我们需要有意识地选择有价值的低概率体验。不是为了冷门而冷门而是为了拓展自己的认知边界。故意点击推荐列表之外的内容读一些冷门的、过时的、与主流观点不同的书去一些不那么热门的地方旅行尝试一些你从未做过的事情当AI给你一个答案时主动去寻找第二个、第三个不同的答案。为了对抗被平滑的、无菌的算法世界一种基于噪声和故障的当代反文化正在兴起。我们可以通过以下方式建立智力防火墙在语言表达中保留蓄意的陌生化和个性化在知识获取中拥抱物理书店的偶遇和纸质旧书的温度在审美体验中追求瑕疵、随机性和带有粗粝肉身感的现场即兴。我们需要在系统内部注入“有建设性的噪声”。但我们必须清醒地认识到把对抗的责任主要压给个人是远远不够的甚至是不公平的。正如之前指出的绑架具有阶级性——有闲暇、有教育、有资源的人才做得到这些。因此制度与设计层面的对策应该是主干而非补充。政府应该出台相关法规要求AI公司透明化其算法机制特别是推荐算法应该保护用户的数据隐私让用户有权利选择不被算法画像和追踪应该建立保护尾部内容和边缘声音的机制防止文化多样性的消失。AI越强大我们越需要重新理解人的价值。人的价值不在于比机器记得更多、算得更快、写得更流畅。那些能力恰恰最容易被机器复制甚至超越。人的价值也许在于某种不完全可计算性我们会迟疑会反悔会爱上不该爱的人会坚持没有收益的理想会为了一个陌生人的痛苦改变自己的人生方向。这些东西从统计角度看可能低效、混乱、不稳定甚至不理性。但正是这种不稳定构成了人的开放性。一个完全可预测的人也许是高效的消费者、合格的员工、稳定的用户却未必是一个真正自由的人。我们当然可以借助AI提高效率但不能让效率成为衡量一切的唯一尺度。因为生命中最重要的许多东西本来就不是效率问题。爱不是最优匹配信念不是概率最大化创造不是历史素材的平滑重组自由也不是在推荐列表里选择下一个视频。如果说AI代表着人类文明对自身经验的统计总结那么人类仍然必须保留一种能力不断背叛自己的统计过去。我们之所以为人正在于我们并不只是过去数据的延长线。我们可以从已有模式中醒来用我们独有的判断力去甄别有价值的偏离走向一个尚未被数据证明、尚未被模型预测、甚至尚未被语言完全命名的未来。