1. 统计推断的本质一句话的哲学如果你曾经被统计学折磨过无论是大学里令人昏昏欲睡的STAT101还是博士资格考前一晚的噩梦我有个好消息告诉你这一切的核心其实简单到可以用一句话概括。这句话是上世纪20年代统计学革命性思想的结晶我们今天在数据科学、人工智能乃至任何需要从数据中获取洞见的领域里遇到的绝大多数统计方法都可以从这句话里推导出来。如果你想真正理解统计推断而不是仅仅记住一堆公式我建议你把这句话写在便利贴上贴在显示器旁边每天看一遍。这句话就是“我们收集到的证据是否让我们的零假设看起来荒谬可笑”是的你没看错。从最简单的t检验到复杂的贝叶斯模型比较每一次经典的假设检验归根结底都是在回答这个问题。第一次听到这个说法你可能会觉得有点“泄气”——那些让我们头疼了无数个夜晚的P值、显著性水平、拒绝域其灵魂竟然如此直白但对于那些在统计迷雾中挣扎的人来说这束光可能正是你需要的。让我们暂时忘掉那些复杂的符号。统计推断不是数学巫术它是一门关于在不确定性下如何改变主意的科学。我们设计实验、收集数据本质上是在寻找一个理由一个足够强大的理由来说服自己放弃原先那个“默认”的立场也就是零假设。如果证据让这个默认立场显得极其不合理我们就推翻它如果证据没那么有说服力我们就按兵不动。就这么简单。注意这里有一个至关重要的心态转变。统计推断的目标不一定是“发现真理”或“获得知识”而是为了做出一个在现有信息下尽可能合理的决策。很多时候最诚实的结论是“我不知道”而统计学给了我们一套框架让我们可以心安理得地说“我不知道”同时依然能采取行动。2. 外星人例子拆解假设检验的每一步概念听起来简单但一遇到实际问题就容易糊涂。让我们用一个我经常在课堂上讲的“外星人探测”例子把这句话具象化。想象你得到了一份梦寐以求的工作探索外星球寻找外星生命。不过和所有“理想工作”一样它有个讨厌的“经理”。他给你的控制面板极其简陋只有两个按钮YES有外星生命和NO没有外星生命。没有“可能”没有“不确定”没有备注栏。更糟糕的是你的预算只允许你在星球上着陆选择一个方向步行探索直到氧气快耗尽然后就必须返回飞船按下其中一个按钮。你无法搜索整个星球。核心困境你基于有限样本一次徒步探索的信息必须对整个星球总体做出一个二元的、确定的判断。这就是假设检验所面对的典型场景。2.1 第一步确定默认行动所有假设检验都始于同一个地方默认行动。这是你在不查看任何证据的情况下承诺会采取的行动。换句话说如果你连星球都不降落你会按哪个按钮这没有标准答案。这是一个商业决策取决于你所在太空探索公司的“政治”。比如如果按YES的成本极高例如会触发星际条约引发外交危机那么公司可能倾向于默认按NO。如果按NO的代价巨大例如错过首次接触的荣耀和科学突破那么默认可能偏向YES。为了演示我们假设大多数读者会更倾向于谨慎所以我们先设定默认行动按下 NO 按钮。这意味着在没有任何信息的情况下我们假定星球上没有生命。2.2 第二步确定备择行动这很简单。备择行动就是你不采取默认行动时会做的事。备择行动按下 YES 按钮。2.3 第三步建立零假设现在你着陆了。你问自己一个问题“如果我完全了解这个星球在哪种情况下按下NO按钮会是一个让我心安理得的选择” 答案就是如果这个星球上确实没有外星生命那么我按NO就是完全正确的。 所以零假设 这个星球上没有外星生命。零假设 通常代表一种“现状”、“无效果”或“默认状态”。它是我们试图用证据去质疑的靶子。2.4 第四步建立备择假设备择假设 就是零假设不成立时的情况。既然我们的行动只有YES和NO假设也必须覆盖所有可能性。备择假设 这个星球上有外星生命。至此我们的决策框架就搭好了。我们有了默认行动NO有了挑战默认行动时需要采取的行动YES也有了与之对应的两个互斥且完备的假设。接下来就是收集证据。3. 收集数据与“一无所知”的艺术你是个认真的人不会飞过星球直接按NO。你降落花了三个小时朝一个方向艰苦跋涉然后返回。在整个过程中你观察到的结果是0个外星人。现在有趣的问题来了我们学到了什么有意思的东西在课堂上我常听到的回答是“在我们这次三小时的徒步中没有看到外星人。”这个回答微妙地错误了。错在哪错在思考的框架。3.1 统计推断 vs. 描述性分析这里的关键是区分两种完全不同的心智模式描述性分析只关心你已经看到的数据。它的黄金法则是“忠于数据不超越数据”。在这个模式下“三小时徒步发现0个外星人”就是一个有趣的事实。你每次分析都能学到点东西因为你的兴趣范围就局限在眼前的电子表格里。统计推断我们关心的是你没看到的东西即总体。我们签了一份“法律合同”约定只有关于整个星球总体的信息才对我们有意义。我们这次徒步只是一个样本。所以正确的表述是样本统计量3小时徒步中发现0个外星人。总体参数整个星球上的外星人数量在统计推断的框架下我们无法区分以下两种可能性星球上真的没有外星人。外星人存在只是躲在下一块我们没翻开的石头下面。基于当前的证据我们无法判断哪一种可能性为真。因此对于“我们学到了什么关于整个星球的有趣事情”这个问题最诚实的答案是什么都没有。我们什么有趣的东西都没学到。这太了不起了你发现了吗我们刚刚分析了数据并且正确地除了数据本身什么也没推断出来。在现实中我们有多经常允许自己这样做我们应该养成更常说“我什么也没学到并且我为此感到自豪”的习惯。因为如果你每次做假设检验都坚持要“学到”点什么你最终一定会学到一些愚蠢的结论。实操心得这是初学者和老手最大的思维差异之一。新手往往觉得“辛辛苦苦做了实验P值大于0.05什么都没发现好失败”。而老手明白“未能拒绝零假设”本身就是一个有价值的结果。它意味着现有的证据不足以支持我们改变原有的行动计划我们可以继续按默认方案执行并且这个决定是经过严格检验的。3.2 当证据让零假设显得荒谬现在让我们想象另一种情况。在你三小时的徒步中你不仅看到了外星人还拍到了下面这个小绿人假设它确实是外星人不是一根腌黄瓜。那么我们学到了什么如果我告诉你我观察到了这个外星人但我还在考虑“这个星球上没有外星生命”的可能性你一定会觉得你面前是个傻子。这个证据让我的零假设 看起来荒谬绝伦回到我们那句核心咒语“我们收集到的证据是否让我们的零假设看起来荒谬可笑” 在这个场景下答案是震耳欲聋的“是”。当我们觉得一个假设荒谬时我们该怎么做我们不会紧抓着这种胡话不放。拒绝它由于我们狡猾地设计了两个假设使其覆盖了所有可能性因此拒绝其中一个就把我们逼到了必须接受另一个的角落。作为一个优秀的频率学派统计者这是我们目前讨论的框架我们一开始对星球没有成见。我们只是有一个偏好的行动默认行动。现在证据让我们有充分的理由改变主意。既然觉得坚持零假设 很荒谬我们就拒绝并得出结论支持备择假设 。相应地我们的行动也从默认的NO切换为YES。我们因此获得了关于整个星球的知识这上面有生命4. 决策框架的稳健性为什么“一无所知”没关系那么在“一无所知”的场景下呢也就是我们徒步后什么都没发现证据无法让零假设 显得荒谬。在STAT101的课程里他们会教你写一段绕口的陈述“我们未能拒绝零假设并得出结论没有足够的统计证据支持该星球上存在外星生命。”我一直觉得这种表达的唯一目的就是折磨学生的手腕。我允许我的学生直接写大实话我们没学到什么有趣的东西。学习“一无所获”看起来像一场悲剧。我们投入了所有努力去收集和分析数据……得到了什么什么都没有先别急着捶胸顿足。记住我们来到这里的目的不是为了“知道”事情。我们是为了决策我们的终极目标是做出一个合理的行动选择而不是获取知识。我们是为了按下一个该死的按钮。在这个框架下“未能拒绝零假设”其实非常合理。我们的默认行动就是我们的“保险政策”它让“一无所知”变得可以接受。它给了我们一份契约上面写着“如果我什么都不知道这就是我要做的事。” 通过进入这个统计推断的游戏我们已经声明我们愿意在无知的情况下采取默认行动……如果事实并非如此我们根本就不应该玩统计学。没有默认行动这一切都毫无意义。我们的默认行动是按NO所以当我们未能拒绝零假设时我们就按NO。我们执行那个我们原本就认可的行动因为没有理由改变主意。这个行动是对的吗天晓得但我们已经诚心诚意地试图说服自己放弃它现在我们可以心安理得地执行原计划了。重要提示未能拒绝零假设绝不意味着我们相信零假设是真的比如相信星球上没有外星人。我们只是不知道。外星人完全可能就在下一个岩石构造后面玩耍。仅仅因为我们没找到就断定他们不存在那是傻瓜行为。就像我花了5分钟没找到钥匙不代表钥匙不在公寓里只代表我不知道钥匙在哪。这之间有本质区别。没有理由改变主意那就按原计划执行默认行动。这个行动对吗¯\_(ツ)_/¯ 欢迎来到不确定性的世界。5. 平行宇宙当默认行动是YES时一切如何翻转我们的整个推理严重依赖于最初的设定默认行动是NO。但正如之前所说这个选择是商业的、政治的而非统计的。让我们快速浏览一下如果公司政策反过来默认行动是YES世界会变成什么样。默认行动按下YES按钮。假设公司极度乐观或错过生命迹象的代价极高备择行动按下 NO 按钮。零假设这个星球上有外星生命。因为如果这是真的按YES就是正确选择备择假设这个星球上没有外星生命。现在同样的三小时徒步同样发现0个外星人问题来了“我们收集到的证据0个外星人是否让我们的零假设有外星生命看起来荒谬”答案依然是不。看到0个外星人完全与“星球上存在隐藏得很好、我们刚好没碰到的外星生命”这一假设相容。证据并不荒谬。因此我们未能拒绝零假设。结论我们没学到什么有趣的东西因此执行默认行动按下YES。发现玄机了吗在第一个宇宙默认NO看到0个外星人我们按NO。在第二个宇宙默认YES看到完全相同的0个外星人我们却按了YES数据相同决策相反。这完美地诠释了统计推断的本质它不直接告诉你“真理是什么”它告诉你的是在你自己设定的决策规则和风险偏好下现有的数据支持你做出哪个选择。P值、显著性水平这些工具都是用来量化“证据让零假设看起来有多荒谬”的标尺。6. 从哲学到实践核心概念的操作化理解了“荒谬”这个核心感觉后我们需要更精确的工具来衡量它。这就是P值和显著性水平 登场的时候。6.1 P值荒谬程度的量化P值的定义是在零假设 为真的前提下观察到当前样本数据或更极端数据的概率。把它翻译成我们的外星人语言假设这个星球上真的没有外星人为真那么我们进行一次像今天这样的徒步或更徒劳的、发现更少外星人的徒步结果一个人都没碰到的可能性有多大如果这个概率P值非常小比如小于0.05意味着什么意味着如果星球上真的没有外星人那我们今天这种“空手而归”的情况就太奇怪、太罕见了。这让我们觉得“星球上没有外星人”这个假设为真看起来很荒谬。于是我们拒绝。如果这个概率P值比较大比如0.30意味着什么意味着即使星球上真的没有外星人我们像今天这样白跑一趟也是常有的事一点也不稀奇。所以这个证据并不荒谬我们无法拒绝。P值就是一个把“荒谬感”量化为一个介于0和1之间的数字的工具。它越小你的荒谬感就应该越强。6.2 显著性水平 荒谬的阈值但多小才算“荒谬”呢这就是显著性水平 的作用。它是你事先设定的一个门槛通常为0.05或0.01。你可以把它理解为你的“荒谬容忍度”。你事先宣布“如果证据导致的情况发生的概率低于5%0.05我就认为这足够荒谬我要拒绝零假设。”如果 **P值 ≤ **证据足够荒谬拒绝。如果 **P值 **证据不够荒谬无法拒绝。这个 必须在看到数据之前就设定好绝不能事后根据P值大小来调整否则整个推断的基石就崩塌了。常见陷阱很多人把P值理解为“为零假设为真的概率”或“备择假设为真的概率”。这是完全错误的。P值是关于数据的概率是在假设为真的条件下计算的。它衡量的是证据的强度而非假设本身的真实性。7. 第一类错误与第二类错误决策的风险任何基于不确定性的决策都可能犯错。在假设检验中有两种经典的错误错误类型俗称定义在我们的外星人例子中默认NO第一类错误弃真错误/假阳性为真时拒绝了星球上其实没有外星人为真但我们却看到了一个外星人小绿人错误地拒绝了按下了YES。第二类错误取伪错误/假阴性为假时未能拒绝星球上其实有外星人为假但我们徒步时没碰到错误地未能拒绝按下了NO。**显著性水平 ** 直接控制了第一类错误发生的概率。我们说“在显著性水平0.05下拒绝”就意味着我们甘愿承受最多5%的风险把没有生命的星球错判为有生命。统计功效指的是当为假时我们成功拒绝它的概率即1减去第二类错误概率。它取决于效应大小、样本量和变异程度。在实际应用中你需要在两种错误的风险之间进行权衡。降低更严格可以减少假阳性但可能会增加假阴性。提高样本量是同时降低两种错误风险的有效方法。8. 超越外星人现实世界中的应用与心得将外星人的例子映射到现实世界一切豁然开朗。A/B测试默认行动是“不推出新版本”保持原样。零假设是“新版本与原版本效果无差异”。我们收集用户交互数据点击率、转化率计算P值。如果P值很小证据显示“无差异”这个假设很荒谬我们就拒绝它推出新版本。如果P值不够小我们就“一无所知”保持原样。药物临床试验默认行动是“不批准新药”假设无效。零假设是“新药与安慰剂疗效无差异”。如果试验数据显示P值极小证明“无效”的假设很荒谬则拒绝零假设批准新药。否则无法证明其有效。质量检测默认行动是“让这批产品出厂”假设质量合格。零假设是“产品不合格率在可接受范围内”。抽样检测后如果不良品数量多到让“合格”假设看起来很荒谬P值小就拒绝这批产品。实操心得与常见问题“未能拒绝”不等于“接受”这是最常被误解的一点。就像没找到钥匙不等于钥匙不存在。统计结论是谨慎的它只说“证据不足”而非“证明其假”。P值不是一切一个显著的P值例如0.001只说明在零假设下当前数据很极端并不代表效应在实际意义上很重要。一定要结合效应大小例如转化率提升了0.5%还是50%和置信区间来综合判断。提前设计别事后找补假设、检验方法、显著性水平都应在数据收集前确定。看到数据后再挑一个能让结果显著的检验方法或阈值是严重的学术不端和商业误导被称为“P值操纵”或“钓鱼”。理解你的默认行动在开始任何分析前想清楚你的业务默认是什么。是“保持现状”还是“做出改变”这直接决定了你的零假设如何设定也决定了你结论的导向。很多团队内部的争论根源在于对默认行动的理解不一致。拥抱“不确定性”统计学不是点石成金的魔术它是一套在充满噪声的世界里进行理性决策的防身术。它的输出常常是概率性的、有条件的。学会与不确定性共处用概率的思维说话“有95%的置信度认为…”而不是绝对化的断言“这肯定有效”是数据思维成熟的关键标志。统计推断的整个游戏就是围绕着“我们收集到的证据是否让我们的零假设看起来荒谬”这个问题展开的。一切的关键在于我们基于证据对于改变主意有何感受。下次当你面对P值、置信区间时不妨回想一下那个在陌生星球上徒步、纠结于按下YES或NO按钮的探险家。你所做的在本质上和他并无不同——在信息不完备的情况下运用一套严谨的规则做出一个经得起推敲的决策。这就是统计学的力量也是它的美感所在。
统计推断的本质:从假设检验到数据决策的哲学与实践
1. 统计推断的本质一句话的哲学如果你曾经被统计学折磨过无论是大学里令人昏昏欲睡的STAT101还是博士资格考前一晚的噩梦我有个好消息告诉你这一切的核心其实简单到可以用一句话概括。这句话是上世纪20年代统计学革命性思想的结晶我们今天在数据科学、人工智能乃至任何需要从数据中获取洞见的领域里遇到的绝大多数统计方法都可以从这句话里推导出来。如果你想真正理解统计推断而不是仅仅记住一堆公式我建议你把这句话写在便利贴上贴在显示器旁边每天看一遍。这句话就是“我们收集到的证据是否让我们的零假设看起来荒谬可笑”是的你没看错。从最简单的t检验到复杂的贝叶斯模型比较每一次经典的假设检验归根结底都是在回答这个问题。第一次听到这个说法你可能会觉得有点“泄气”——那些让我们头疼了无数个夜晚的P值、显著性水平、拒绝域其灵魂竟然如此直白但对于那些在统计迷雾中挣扎的人来说这束光可能正是你需要的。让我们暂时忘掉那些复杂的符号。统计推断不是数学巫术它是一门关于在不确定性下如何改变主意的科学。我们设计实验、收集数据本质上是在寻找一个理由一个足够强大的理由来说服自己放弃原先那个“默认”的立场也就是零假设。如果证据让这个默认立场显得极其不合理我们就推翻它如果证据没那么有说服力我们就按兵不动。就这么简单。注意这里有一个至关重要的心态转变。统计推断的目标不一定是“发现真理”或“获得知识”而是为了做出一个在现有信息下尽可能合理的决策。很多时候最诚实的结论是“我不知道”而统计学给了我们一套框架让我们可以心安理得地说“我不知道”同时依然能采取行动。2. 外星人例子拆解假设检验的每一步概念听起来简单但一遇到实际问题就容易糊涂。让我们用一个我经常在课堂上讲的“外星人探测”例子把这句话具象化。想象你得到了一份梦寐以求的工作探索外星球寻找外星生命。不过和所有“理想工作”一样它有个讨厌的“经理”。他给你的控制面板极其简陋只有两个按钮YES有外星生命和NO没有外星生命。没有“可能”没有“不确定”没有备注栏。更糟糕的是你的预算只允许你在星球上着陆选择一个方向步行探索直到氧气快耗尽然后就必须返回飞船按下其中一个按钮。你无法搜索整个星球。核心困境你基于有限样本一次徒步探索的信息必须对整个星球总体做出一个二元的、确定的判断。这就是假设检验所面对的典型场景。2.1 第一步确定默认行动所有假设检验都始于同一个地方默认行动。这是你在不查看任何证据的情况下承诺会采取的行动。换句话说如果你连星球都不降落你会按哪个按钮这没有标准答案。这是一个商业决策取决于你所在太空探索公司的“政治”。比如如果按YES的成本极高例如会触发星际条约引发外交危机那么公司可能倾向于默认按NO。如果按NO的代价巨大例如错过首次接触的荣耀和科学突破那么默认可能偏向YES。为了演示我们假设大多数读者会更倾向于谨慎所以我们先设定默认行动按下 NO 按钮。这意味着在没有任何信息的情况下我们假定星球上没有生命。2.2 第二步确定备择行动这很简单。备择行动就是你不采取默认行动时会做的事。备择行动按下 YES 按钮。2.3 第三步建立零假设现在你着陆了。你问自己一个问题“如果我完全了解这个星球在哪种情况下按下NO按钮会是一个让我心安理得的选择” 答案就是如果这个星球上确实没有外星生命那么我按NO就是完全正确的。 所以零假设 这个星球上没有外星生命。零假设 通常代表一种“现状”、“无效果”或“默认状态”。它是我们试图用证据去质疑的靶子。2.4 第四步建立备择假设备择假设 就是零假设不成立时的情况。既然我们的行动只有YES和NO假设也必须覆盖所有可能性。备择假设 这个星球上有外星生命。至此我们的决策框架就搭好了。我们有了默认行动NO有了挑战默认行动时需要采取的行动YES也有了与之对应的两个互斥且完备的假设。接下来就是收集证据。3. 收集数据与“一无所知”的艺术你是个认真的人不会飞过星球直接按NO。你降落花了三个小时朝一个方向艰苦跋涉然后返回。在整个过程中你观察到的结果是0个外星人。现在有趣的问题来了我们学到了什么有意思的东西在课堂上我常听到的回答是“在我们这次三小时的徒步中没有看到外星人。”这个回答微妙地错误了。错在哪错在思考的框架。3.1 统计推断 vs. 描述性分析这里的关键是区分两种完全不同的心智模式描述性分析只关心你已经看到的数据。它的黄金法则是“忠于数据不超越数据”。在这个模式下“三小时徒步发现0个外星人”就是一个有趣的事实。你每次分析都能学到点东西因为你的兴趣范围就局限在眼前的电子表格里。统计推断我们关心的是你没看到的东西即总体。我们签了一份“法律合同”约定只有关于整个星球总体的信息才对我们有意义。我们这次徒步只是一个样本。所以正确的表述是样本统计量3小时徒步中发现0个外星人。总体参数整个星球上的外星人数量在统计推断的框架下我们无法区分以下两种可能性星球上真的没有外星人。外星人存在只是躲在下一块我们没翻开的石头下面。基于当前的证据我们无法判断哪一种可能性为真。因此对于“我们学到了什么关于整个星球的有趣事情”这个问题最诚实的答案是什么都没有。我们什么有趣的东西都没学到。这太了不起了你发现了吗我们刚刚分析了数据并且正确地除了数据本身什么也没推断出来。在现实中我们有多经常允许自己这样做我们应该养成更常说“我什么也没学到并且我为此感到自豪”的习惯。因为如果你每次做假设检验都坚持要“学到”点什么你最终一定会学到一些愚蠢的结论。实操心得这是初学者和老手最大的思维差异之一。新手往往觉得“辛辛苦苦做了实验P值大于0.05什么都没发现好失败”。而老手明白“未能拒绝零假设”本身就是一个有价值的结果。它意味着现有的证据不足以支持我们改变原有的行动计划我们可以继续按默认方案执行并且这个决定是经过严格检验的。3.2 当证据让零假设显得荒谬现在让我们想象另一种情况。在你三小时的徒步中你不仅看到了外星人还拍到了下面这个小绿人假设它确实是外星人不是一根腌黄瓜。那么我们学到了什么如果我告诉你我观察到了这个外星人但我还在考虑“这个星球上没有外星生命”的可能性你一定会觉得你面前是个傻子。这个证据让我的零假设 看起来荒谬绝伦回到我们那句核心咒语“我们收集到的证据是否让我们的零假设看起来荒谬可笑” 在这个场景下答案是震耳欲聋的“是”。当我们觉得一个假设荒谬时我们该怎么做我们不会紧抓着这种胡话不放。拒绝它由于我们狡猾地设计了两个假设使其覆盖了所有可能性因此拒绝其中一个就把我们逼到了必须接受另一个的角落。作为一个优秀的频率学派统计者这是我们目前讨论的框架我们一开始对星球没有成见。我们只是有一个偏好的行动默认行动。现在证据让我们有充分的理由改变主意。既然觉得坚持零假设 很荒谬我们就拒绝并得出结论支持备择假设 。相应地我们的行动也从默认的NO切换为YES。我们因此获得了关于整个星球的知识这上面有生命4. 决策框架的稳健性为什么“一无所知”没关系那么在“一无所知”的场景下呢也就是我们徒步后什么都没发现证据无法让零假设 显得荒谬。在STAT101的课程里他们会教你写一段绕口的陈述“我们未能拒绝零假设并得出结论没有足够的统计证据支持该星球上存在外星生命。”我一直觉得这种表达的唯一目的就是折磨学生的手腕。我允许我的学生直接写大实话我们没学到什么有趣的东西。学习“一无所获”看起来像一场悲剧。我们投入了所有努力去收集和分析数据……得到了什么什么都没有先别急着捶胸顿足。记住我们来到这里的目的不是为了“知道”事情。我们是为了决策我们的终极目标是做出一个合理的行动选择而不是获取知识。我们是为了按下一个该死的按钮。在这个框架下“未能拒绝零假设”其实非常合理。我们的默认行动就是我们的“保险政策”它让“一无所知”变得可以接受。它给了我们一份契约上面写着“如果我什么都不知道这就是我要做的事。” 通过进入这个统计推断的游戏我们已经声明我们愿意在无知的情况下采取默认行动……如果事实并非如此我们根本就不应该玩统计学。没有默认行动这一切都毫无意义。我们的默认行动是按NO所以当我们未能拒绝零假设时我们就按NO。我们执行那个我们原本就认可的行动因为没有理由改变主意。这个行动是对的吗天晓得但我们已经诚心诚意地试图说服自己放弃它现在我们可以心安理得地执行原计划了。重要提示未能拒绝零假设绝不意味着我们相信零假设是真的比如相信星球上没有外星人。我们只是不知道。外星人完全可能就在下一个岩石构造后面玩耍。仅仅因为我们没找到就断定他们不存在那是傻瓜行为。就像我花了5分钟没找到钥匙不代表钥匙不在公寓里只代表我不知道钥匙在哪。这之间有本质区别。没有理由改变主意那就按原计划执行默认行动。这个行动对吗¯\_(ツ)_/¯ 欢迎来到不确定性的世界。5. 平行宇宙当默认行动是YES时一切如何翻转我们的整个推理严重依赖于最初的设定默认行动是NO。但正如之前所说这个选择是商业的、政治的而非统计的。让我们快速浏览一下如果公司政策反过来默认行动是YES世界会变成什么样。默认行动按下YES按钮。假设公司极度乐观或错过生命迹象的代价极高备择行动按下 NO 按钮。零假设这个星球上有外星生命。因为如果这是真的按YES就是正确选择备择假设这个星球上没有外星生命。现在同样的三小时徒步同样发现0个外星人问题来了“我们收集到的证据0个外星人是否让我们的零假设有外星生命看起来荒谬”答案依然是不。看到0个外星人完全与“星球上存在隐藏得很好、我们刚好没碰到的外星生命”这一假设相容。证据并不荒谬。因此我们未能拒绝零假设。结论我们没学到什么有趣的东西因此执行默认行动按下YES。发现玄机了吗在第一个宇宙默认NO看到0个外星人我们按NO。在第二个宇宙默认YES看到完全相同的0个外星人我们却按了YES数据相同决策相反。这完美地诠释了统计推断的本质它不直接告诉你“真理是什么”它告诉你的是在你自己设定的决策规则和风险偏好下现有的数据支持你做出哪个选择。P值、显著性水平这些工具都是用来量化“证据让零假设看起来有多荒谬”的标尺。6. 从哲学到实践核心概念的操作化理解了“荒谬”这个核心感觉后我们需要更精确的工具来衡量它。这就是P值和显著性水平 登场的时候。6.1 P值荒谬程度的量化P值的定义是在零假设 为真的前提下观察到当前样本数据或更极端数据的概率。把它翻译成我们的外星人语言假设这个星球上真的没有外星人为真那么我们进行一次像今天这样的徒步或更徒劳的、发现更少外星人的徒步结果一个人都没碰到的可能性有多大如果这个概率P值非常小比如小于0.05意味着什么意味着如果星球上真的没有外星人那我们今天这种“空手而归”的情况就太奇怪、太罕见了。这让我们觉得“星球上没有外星人”这个假设为真看起来很荒谬。于是我们拒绝。如果这个概率P值比较大比如0.30意味着什么意味着即使星球上真的没有外星人我们像今天这样白跑一趟也是常有的事一点也不稀奇。所以这个证据并不荒谬我们无法拒绝。P值就是一个把“荒谬感”量化为一个介于0和1之间的数字的工具。它越小你的荒谬感就应该越强。6.2 显著性水平 荒谬的阈值但多小才算“荒谬”呢这就是显著性水平 的作用。它是你事先设定的一个门槛通常为0.05或0.01。你可以把它理解为你的“荒谬容忍度”。你事先宣布“如果证据导致的情况发生的概率低于5%0.05我就认为这足够荒谬我要拒绝零假设。”如果 **P值 ≤ **证据足够荒谬拒绝。如果 **P值 **证据不够荒谬无法拒绝。这个 必须在看到数据之前就设定好绝不能事后根据P值大小来调整否则整个推断的基石就崩塌了。常见陷阱很多人把P值理解为“为零假设为真的概率”或“备择假设为真的概率”。这是完全错误的。P值是关于数据的概率是在假设为真的条件下计算的。它衡量的是证据的强度而非假设本身的真实性。7. 第一类错误与第二类错误决策的风险任何基于不确定性的决策都可能犯错。在假设检验中有两种经典的错误错误类型俗称定义在我们的外星人例子中默认NO第一类错误弃真错误/假阳性为真时拒绝了星球上其实没有外星人为真但我们却看到了一个外星人小绿人错误地拒绝了按下了YES。第二类错误取伪错误/假阴性为假时未能拒绝星球上其实有外星人为假但我们徒步时没碰到错误地未能拒绝按下了NO。**显著性水平 ** 直接控制了第一类错误发生的概率。我们说“在显著性水平0.05下拒绝”就意味着我们甘愿承受最多5%的风险把没有生命的星球错判为有生命。统计功效指的是当为假时我们成功拒绝它的概率即1减去第二类错误概率。它取决于效应大小、样本量和变异程度。在实际应用中你需要在两种错误的风险之间进行权衡。降低更严格可以减少假阳性但可能会增加假阴性。提高样本量是同时降低两种错误风险的有效方法。8. 超越外星人现实世界中的应用与心得将外星人的例子映射到现实世界一切豁然开朗。A/B测试默认行动是“不推出新版本”保持原样。零假设是“新版本与原版本效果无差异”。我们收集用户交互数据点击率、转化率计算P值。如果P值很小证据显示“无差异”这个假设很荒谬我们就拒绝它推出新版本。如果P值不够小我们就“一无所知”保持原样。药物临床试验默认行动是“不批准新药”假设无效。零假设是“新药与安慰剂疗效无差异”。如果试验数据显示P值极小证明“无效”的假设很荒谬则拒绝零假设批准新药。否则无法证明其有效。质量检测默认行动是“让这批产品出厂”假设质量合格。零假设是“产品不合格率在可接受范围内”。抽样检测后如果不良品数量多到让“合格”假设看起来很荒谬P值小就拒绝这批产品。实操心得与常见问题“未能拒绝”不等于“接受”这是最常被误解的一点。就像没找到钥匙不等于钥匙不存在。统计结论是谨慎的它只说“证据不足”而非“证明其假”。P值不是一切一个显著的P值例如0.001只说明在零假设下当前数据很极端并不代表效应在实际意义上很重要。一定要结合效应大小例如转化率提升了0.5%还是50%和置信区间来综合判断。提前设计别事后找补假设、检验方法、显著性水平都应在数据收集前确定。看到数据后再挑一个能让结果显著的检验方法或阈值是严重的学术不端和商业误导被称为“P值操纵”或“钓鱼”。理解你的默认行动在开始任何分析前想清楚你的业务默认是什么。是“保持现状”还是“做出改变”这直接决定了你的零假设如何设定也决定了你结论的导向。很多团队内部的争论根源在于对默认行动的理解不一致。拥抱“不确定性”统计学不是点石成金的魔术它是一套在充满噪声的世界里进行理性决策的防身术。它的输出常常是概率性的、有条件的。学会与不确定性共处用概率的思维说话“有95%的置信度认为…”而不是绝对化的断言“这肯定有效”是数据思维成熟的关键标志。统计推断的整个游戏就是围绕着“我们收集到的证据是否让我们的零假设看起来荒谬”这个问题展开的。一切的关键在于我们基于证据对于改变主意有何感受。下次当你面对P值、置信区间时不妨回想一下那个在陌生星球上徒步、纠结于按下YES或NO按钮的探险家。你所做的在本质上和他并无不同——在信息不完备的情况下运用一套严谨的规则做出一个经得起推敲的决策。这就是统计学的力量也是它的美感所在。