整理 | 郑丽媛出品 | CSDNIDCSDNnews如果把时间拨回 2020 年大多数 AI 从业者讨论的还是 GPT-3 到底有多强。彼时生成式 AI 尚未成为全球焦点ChatGPT 还要两年后才会问世大模型更没有掀起如今席卷全球的投资狂潮。可就在那一年一位谷歌顶级 AI 研究员却因为一篇尚未发表的论文与公司爆发激烈冲突并最终失去了工作。当时很多人以为这不过是硅谷又一次关于职场管理、学术发表和企业文化的争议可如今再回头看人们才发现那篇论文中的警告几乎全部在现实世界中应验了。而被解雇的研究员正是 AI 伦理研究领域最具影响力的人物之一——Timnit Gebru。一场震动 AI 圈的“解雇事件”2020 年 12 月Timnit Gebru 在社交平台发布消息称自己已被谷歌解雇。消息迅速引爆整个 AI 研究圈。因为当时的 Gebru 并非一名普通的研究员而是谷歌伦理 AI 团队Ethical AI Team联合负责人也是全球 AI 公平性与算法偏见研究领域的知名学者之一。出生于埃塞俄比亚的 Gebru 长期关注 AI 中的种族偏见、性别歧视以及社会公平问题。在加入谷歌之前她曾在斯坦福大学从事研究。2018 年她参与发表的一篇关于算法偏见的研究被许多人视为 AI 公平性研究的重要转折点。同年谷歌将她招入麾下并高调展示公司对“负责任 AIResponsible AI”的重视。然而仅仅两年后双方便走向决裂。当时谷歌对外给出的说法是 Gebru 主动辞职但 Gebru 本人则给出了完全不同的版本她表示自己是在休假期间收到公司邮件被告知离职立即生效所有内部系统权限和邮箱访问权限同时被关闭。在她看来这是一场毫无疑问的解雇。随后超 4000 名谷歌员工和业内人士签署公开信对公司的处理方式提出质疑要求给 Gebru 复职——而这一切的导火索是一篇仅有 14 页的学术论文。CSDN 6 月宠粉福利开发者“神装”补给站200 小时 GPU 算力免费领瑞幸咖啡/肯德基早餐/下午茶等能量套餐任选其一入群还可每月定期抽取旗舰显卡、AI PC 等极客神装领取地址https://s.csdn.cn/4nPsOp一篇 14 页的论文引发争议这篇论文名为《On the Dangers of Stochastic Parrots》《随机鹦鹉的危险》作者包括 Timnit Gebru、华盛顿大学语言学教授 Emily Bender以及另外两位研究人员被引用次数目前已超 1.4 万次。后来“随机鹦鹉”这个名称也广为流传。论文地址https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf论文中指出大型语言模型本质上是在统计规律基础上复现语言模式它们能够生成流畅、自然甚至富有逻辑的文本却并不真正理解语言的含义——就像一只学会模仿人类说话的鹦鹉看似聪明实则这种模仿只是建立在海量互联网文本之上。而互联网本身充满了偏见、歧视和仇恨内容。因此大模型极有可能将这些问题一并学习进去并在生成内容时继续放大。要知道那可是 2020 年当时 GPT-3 刚发布、ChatGPT 尚未诞生、大模型热潮也远未到来这篇论文就已经提前预言了今天整个行业最头疼的问题之一。该论文提交至顶级 AI 伦理会议后谷歌管理层却提出要求撤回论文或者移除谷歌研究人员的署名。而 Gebru 拒绝了她要求公司说明具体原因并希望双方能展开进一步讨论。与此同时她还向谷歌内部员工群组发了一封措辞激烈的邮件。在邮件中Gebru 批评谷歌在推动少数族裔招聘和解决内部不平等问题上缺乏实际行动。她写道“当你开始为弱势群体发声时你的处境就会越来越糟。你会让其他领导层感到不舒服。”她还表示如果公司始终无法解释为何要撤回论文那她将在适当的时候选择离职。事情的发展远超她的预料。Gebru 表示谷歌随后回复称不会满足她提出的要求并直接接受了她的“辞职”立即取消了她的所有访问权限。当时该事件迅速演变成全球 AI 领域最具争议的话题之一。当年看似激进的观点如今已成现实真正让这起事件持续被讨论至今的并不是解雇本身而是那篇论文里的内容——因为今天回头再看其中提出的几乎每一个担忧都已经变成AI行业正在面对的现实问题。1第一项预警模型会“胡说八道”2020 年时GPT-3 刚刚发布。当时人们惊叹于模型生成文本的能力却很少有人认真讨论其可靠性。Gebru 和 Bender 则指出随着模型规模不断扩大人们会越来越容易把流畅表达误认为真正理解。模型看起来像是在思考实际上只是在预测下一个最可能出现的词因此它们迟早会生成看似合理却完全错误的信息。而今天这个问题有了一个所有人都熟悉的名字AI幻觉Hallucination。无论是 ChatGPT、Gemini、Claude 还是其他先进模型幻觉问题至今仍未被彻底解决。某种意义上来说该论文在“幻觉”成为行业热词之前就已经准确预见了它。2第二项预警偏见不会消失而会被放大论文还指出互联网本身并不是中立的数据来源训练数据天然就包含各种种族、性别、文化和地域偏见。模型不仅会学习这些偏见还可能因为优化机制进一步强化它们。后来各种现实问题验证了这一担忧亚马逊曾尝试利用AI筛选求职简历结果系统会自动降低包含“women女性”等关键词简历的评分。美国多家大型医院使用的医疗风险评估系统被发现长期低估黑人患者的医疗需求。苹果信用卡 Apple Card 也曾因女性获得的信用额度远低于男性而引发监管关注。这些案例都说明算法并没有自动实现公平相反还可能将现实世界中的不平等以更加隐蔽的方式固化下来。3第三项预警AI 的能源消耗将成为新问题在 2020 年算力成本远没有今天这样受到关注但那篇论文已经开始讨论训练超大模型带来的环境影响。据研究人员测算训练一个大型语言模型所产生的碳排放量相当于五辆汽车整个生命周期的排放总和——当时这一说法被不少人认为过于悲观。然而随着 AI 基础设施建设进入军备竞赛阶段问题迅速显现根据谷歌公开披露的数据2024 年公司温室气体排放量相比 2019 年增长 48%微软同期也增长约 29%。这两家公司都明确表示AI 数据中心和算力基础设施是重要原因之一。有些讽刺的是这些科技巨头几年前还在高调宣传碳中和目标。4第四项预警没人真正知道训练数据里有什么在很多人眼中训练数据似乎只是一个工程问题。但 Gebru 认为随着数据规模越来越大完整审计训练数据将变得几乎不可能。她的观点再次应验2023 年研究人员发现广泛用于训练图像生成模型的数据集 LAION-5B 中存在大量儿童虐待图片包括 Stable Diffusion 在内的多个主流模型都曾使用这一数据集。意料之中许多开发者此前并不知道这些内容的存在。也就是说即便是模型开发者自己也未必真正了解模型“吃进去”的是什么——而这恰恰是论文最早提出的问题之一。5第五项预警互联网将逐渐被 AI 内容占据在谷歌看来这可能才是整篇论文最敏感的部分。Gebru 和 Bender 认为大模型的发展最终会把语言和文化的话语权集中到极少数科技巨头手中。原因很简单训练超大模型需要海量资金、算力和数据资源真正有能力参与竞争的公司屈指可数。久而久之互联网中的主流声音将逐渐演变成由少数公司训练出的统计平均值然后再以“中立助手”的身份向全世界传播。与此同时那些在训练数据中占比较低的语言和文化则会被进一步边缘化。更严重的是当 AI 生成内容再次进入互联网并成为下一轮训练数据时问题还会不断自我强化——这正是如今研究人员所说的“模型崩溃Model Collapse”。2024 年的一项研究就发现英文互联网新增内容中约 57% 已经是 AI 生成或 AI 辅助生成而针对低资源语言的研究则发现由于训练数据越来越多地来自 AI 生成内容部分语言的翻译质量已经出现明显退化。换句话说这篇论文不仅预测到了“模型崩溃”现象甚至在这个概念正式出现之前就已经指出了其形成机制。离开谷歌后她选择继续研究当年事件发生后很多人后来将 Gebru 描述成“反 AI 人士”。其实并不是的她从未主张停止发展 AI。从始至终她质疑的是另一件事到底是谁在决定 AI 的发展方向在她看来推动大模型发展的研究人员和管理层往往拥有相似背景服务于相似的商业目标并受到相同的竞争压力驱动。在这样的激励机制下更快地发布产品、更快地扩大用户规模、更快地赢得市场竞争往往比安全、公平和伦理问题拥有更高的优先级。而所有试图减缓这一进程的人都可能被视为阻碍者。讽刺的是Gebru 正是在谷歌内部提出的这一观点而谷歌通过解雇她也让这一观点获得了最具戏剧性的现实注脚。更令人唏嘘的是事件发生后不久另一位伦理AI团队联合负责人 Margaret Mitchell 也被解雇——短短 90 天内谷歌曾经那个引以为傲的伦理 AI 团队基本被瓦解。离开谷歌后2021 年 Gebru 创立了分布式 AI 研究所DAIRDistributed AI Research Institute。与大型科技公司不同这家机构希望在商业利益之外开展 AI 研究其目标很直接研究那些科技巨头未必愿意面对的问题。过去几年里DAIR 持续关注数据来源、算法公平性、语言多样性以及 AI 产业权力集中等议题。而随着生成式 AI 爆发式发展越来越多研究者也开始重新关注那篇《随机鹦鹉的危险》因为他们发现当年论文中被视为过度担忧的问题如今已成为行业每天都在讨论的现实。或许她只是比其他人更早看到了问题六年过去关于 Timnit Gebru 与谷歌之间的是非争议外界或许永远无法获得一个所有人都认同的答案。谷歌认为那是一场正常的学术审查与离职事件Gebru则认为自己因为坚持发表研究成果而遭到打压。但有一点已经越来越难以否认那篇导致她离开谷歌的论文并没有随着争议结束而失去意义。恰恰相反它讨论的幻觉、偏见、数据污染、环境成本、模型崩溃和权力集中等问题如今已经成为整个 AI 产业无法回避的话题。有时历史会以一种出人意料的方式给出评价。2020 年很多人觉得 Timnit Gebru 太悲观了2026 年人们开始意识到她或许只是比其他人更早看到了问题。参考链接https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from
因一篇14页论文被谷歌“赶走”,超4000人为其声援!6年后再看:当年她几乎预言了整个AI时代
整理 | 郑丽媛出品 | CSDNIDCSDNnews如果把时间拨回 2020 年大多数 AI 从业者讨论的还是 GPT-3 到底有多强。彼时生成式 AI 尚未成为全球焦点ChatGPT 还要两年后才会问世大模型更没有掀起如今席卷全球的投资狂潮。可就在那一年一位谷歌顶级 AI 研究员却因为一篇尚未发表的论文与公司爆发激烈冲突并最终失去了工作。当时很多人以为这不过是硅谷又一次关于职场管理、学术发表和企业文化的争议可如今再回头看人们才发现那篇论文中的警告几乎全部在现实世界中应验了。而被解雇的研究员正是 AI 伦理研究领域最具影响力的人物之一——Timnit Gebru。一场震动 AI 圈的“解雇事件”2020 年 12 月Timnit Gebru 在社交平台发布消息称自己已被谷歌解雇。消息迅速引爆整个 AI 研究圈。因为当时的 Gebru 并非一名普通的研究员而是谷歌伦理 AI 团队Ethical AI Team联合负责人也是全球 AI 公平性与算法偏见研究领域的知名学者之一。出生于埃塞俄比亚的 Gebru 长期关注 AI 中的种族偏见、性别歧视以及社会公平问题。在加入谷歌之前她曾在斯坦福大学从事研究。2018 年她参与发表的一篇关于算法偏见的研究被许多人视为 AI 公平性研究的重要转折点。同年谷歌将她招入麾下并高调展示公司对“负责任 AIResponsible AI”的重视。然而仅仅两年后双方便走向决裂。当时谷歌对外给出的说法是 Gebru 主动辞职但 Gebru 本人则给出了完全不同的版本她表示自己是在休假期间收到公司邮件被告知离职立即生效所有内部系统权限和邮箱访问权限同时被关闭。在她看来这是一场毫无疑问的解雇。随后超 4000 名谷歌员工和业内人士签署公开信对公司的处理方式提出质疑要求给 Gebru 复职——而这一切的导火索是一篇仅有 14 页的学术论文。CSDN 6 月宠粉福利开发者“神装”补给站200 小时 GPU 算力免费领瑞幸咖啡/肯德基早餐/下午茶等能量套餐任选其一入群还可每月定期抽取旗舰显卡、AI PC 等极客神装领取地址https://s.csdn.cn/4nPsOp一篇 14 页的论文引发争议这篇论文名为《On the Dangers of Stochastic Parrots》《随机鹦鹉的危险》作者包括 Timnit Gebru、华盛顿大学语言学教授 Emily Bender以及另外两位研究人员被引用次数目前已超 1.4 万次。后来“随机鹦鹉”这个名称也广为流传。论文地址https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf论文中指出大型语言模型本质上是在统计规律基础上复现语言模式它们能够生成流畅、自然甚至富有逻辑的文本却并不真正理解语言的含义——就像一只学会模仿人类说话的鹦鹉看似聪明实则这种模仿只是建立在海量互联网文本之上。而互联网本身充满了偏见、歧视和仇恨内容。因此大模型极有可能将这些问题一并学习进去并在生成内容时继续放大。要知道那可是 2020 年当时 GPT-3 刚发布、ChatGPT 尚未诞生、大模型热潮也远未到来这篇论文就已经提前预言了今天整个行业最头疼的问题之一。该论文提交至顶级 AI 伦理会议后谷歌管理层却提出要求撤回论文或者移除谷歌研究人员的署名。而 Gebru 拒绝了她要求公司说明具体原因并希望双方能展开进一步讨论。与此同时她还向谷歌内部员工群组发了一封措辞激烈的邮件。在邮件中Gebru 批评谷歌在推动少数族裔招聘和解决内部不平等问题上缺乏实际行动。她写道“当你开始为弱势群体发声时你的处境就会越来越糟。你会让其他领导层感到不舒服。”她还表示如果公司始终无法解释为何要撤回论文那她将在适当的时候选择离职。事情的发展远超她的预料。Gebru 表示谷歌随后回复称不会满足她提出的要求并直接接受了她的“辞职”立即取消了她的所有访问权限。当时该事件迅速演变成全球 AI 领域最具争议的话题之一。当年看似激进的观点如今已成现实真正让这起事件持续被讨论至今的并不是解雇本身而是那篇论文里的内容——因为今天回头再看其中提出的几乎每一个担忧都已经变成AI行业正在面对的现实问题。1第一项预警模型会“胡说八道”2020 年时GPT-3 刚刚发布。当时人们惊叹于模型生成文本的能力却很少有人认真讨论其可靠性。Gebru 和 Bender 则指出随着模型规模不断扩大人们会越来越容易把流畅表达误认为真正理解。模型看起来像是在思考实际上只是在预测下一个最可能出现的词因此它们迟早会生成看似合理却完全错误的信息。而今天这个问题有了一个所有人都熟悉的名字AI幻觉Hallucination。无论是 ChatGPT、Gemini、Claude 还是其他先进模型幻觉问题至今仍未被彻底解决。某种意义上来说该论文在“幻觉”成为行业热词之前就已经准确预见了它。2第二项预警偏见不会消失而会被放大论文还指出互联网本身并不是中立的数据来源训练数据天然就包含各种种族、性别、文化和地域偏见。模型不仅会学习这些偏见还可能因为优化机制进一步强化它们。后来各种现实问题验证了这一担忧亚马逊曾尝试利用AI筛选求职简历结果系统会自动降低包含“women女性”等关键词简历的评分。美国多家大型医院使用的医疗风险评估系统被发现长期低估黑人患者的医疗需求。苹果信用卡 Apple Card 也曾因女性获得的信用额度远低于男性而引发监管关注。这些案例都说明算法并没有自动实现公平相反还可能将现实世界中的不平等以更加隐蔽的方式固化下来。3第三项预警AI 的能源消耗将成为新问题在 2020 年算力成本远没有今天这样受到关注但那篇论文已经开始讨论训练超大模型带来的环境影响。据研究人员测算训练一个大型语言模型所产生的碳排放量相当于五辆汽车整个生命周期的排放总和——当时这一说法被不少人认为过于悲观。然而随着 AI 基础设施建设进入军备竞赛阶段问题迅速显现根据谷歌公开披露的数据2024 年公司温室气体排放量相比 2019 年增长 48%微软同期也增长约 29%。这两家公司都明确表示AI 数据中心和算力基础设施是重要原因之一。有些讽刺的是这些科技巨头几年前还在高调宣传碳中和目标。4第四项预警没人真正知道训练数据里有什么在很多人眼中训练数据似乎只是一个工程问题。但 Gebru 认为随着数据规模越来越大完整审计训练数据将变得几乎不可能。她的观点再次应验2023 年研究人员发现广泛用于训练图像生成模型的数据集 LAION-5B 中存在大量儿童虐待图片包括 Stable Diffusion 在内的多个主流模型都曾使用这一数据集。意料之中许多开发者此前并不知道这些内容的存在。也就是说即便是模型开发者自己也未必真正了解模型“吃进去”的是什么——而这恰恰是论文最早提出的问题之一。5第五项预警互联网将逐渐被 AI 内容占据在谷歌看来这可能才是整篇论文最敏感的部分。Gebru 和 Bender 认为大模型的发展最终会把语言和文化的话语权集中到极少数科技巨头手中。原因很简单训练超大模型需要海量资金、算力和数据资源真正有能力参与竞争的公司屈指可数。久而久之互联网中的主流声音将逐渐演变成由少数公司训练出的统计平均值然后再以“中立助手”的身份向全世界传播。与此同时那些在训练数据中占比较低的语言和文化则会被进一步边缘化。更严重的是当 AI 生成内容再次进入互联网并成为下一轮训练数据时问题还会不断自我强化——这正是如今研究人员所说的“模型崩溃Model Collapse”。2024 年的一项研究就发现英文互联网新增内容中约 57% 已经是 AI 生成或 AI 辅助生成而针对低资源语言的研究则发现由于训练数据越来越多地来自 AI 生成内容部分语言的翻译质量已经出现明显退化。换句话说这篇论文不仅预测到了“模型崩溃”现象甚至在这个概念正式出现之前就已经指出了其形成机制。离开谷歌后她选择继续研究当年事件发生后很多人后来将 Gebru 描述成“反 AI 人士”。其实并不是的她从未主张停止发展 AI。从始至终她质疑的是另一件事到底是谁在决定 AI 的发展方向在她看来推动大模型发展的研究人员和管理层往往拥有相似背景服务于相似的商业目标并受到相同的竞争压力驱动。在这样的激励机制下更快地发布产品、更快地扩大用户规模、更快地赢得市场竞争往往比安全、公平和伦理问题拥有更高的优先级。而所有试图减缓这一进程的人都可能被视为阻碍者。讽刺的是Gebru 正是在谷歌内部提出的这一观点而谷歌通过解雇她也让这一观点获得了最具戏剧性的现实注脚。更令人唏嘘的是事件发生后不久另一位伦理AI团队联合负责人 Margaret Mitchell 也被解雇——短短 90 天内谷歌曾经那个引以为傲的伦理 AI 团队基本被瓦解。离开谷歌后2021 年 Gebru 创立了分布式 AI 研究所DAIRDistributed AI Research Institute。与大型科技公司不同这家机构希望在商业利益之外开展 AI 研究其目标很直接研究那些科技巨头未必愿意面对的问题。过去几年里DAIR 持续关注数据来源、算法公平性、语言多样性以及 AI 产业权力集中等议题。而随着生成式 AI 爆发式发展越来越多研究者也开始重新关注那篇《随机鹦鹉的危险》因为他们发现当年论文中被视为过度担忧的问题如今已成为行业每天都在讨论的现实。或许她只是比其他人更早看到了问题六年过去关于 Timnit Gebru 与谷歌之间的是非争议外界或许永远无法获得一个所有人都认同的答案。谷歌认为那是一场正常的学术审查与离职事件Gebru则认为自己因为坚持发表研究成果而遭到打压。但有一点已经越来越难以否认那篇导致她离开谷歌的论文并没有随着争议结束而失去意义。恰恰相反它讨论的幻觉、偏见、数据污染、环境成本、模型崩溃和权力集中等问题如今已经成为整个 AI 产业无法回避的话题。有时历史会以一种出人意料的方式给出评价。2020 年很多人觉得 Timnit Gebru 太悲观了2026 年人们开始意识到她或许只是比其他人更早看到了问题。参考链接https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from