第一卷初火与基石架构诞生第一章混沌中的第一缕光——Transformer架构与注意力的觉醒一深夜两点十七分实验室的冷光灯管发出持续的、令人焦躁的嗡鸣。瓦力揉了揉干涩的眼睛屏幕上的代码像一群密密麻麻的蚂蚁爬满了整个二十七寸显示器。他已经连续工作三十一个小时了咖啡杯底凝结着一圈深褐色的渍痕那是他今天第六杯——或者第七杯他已经记不清了。他面前的这台服务器代号弗莱肯斯坦正在运行一个长短期记忆网络——圈内人管它叫LSTM。这东西已经训练了整整三周瓦力刚刚让它读了一篇三百字的短新闻然后问它这篇文章的主旨是什么屏幕上那个蓝色的光标闪烁了一下然后吐出一行字主旨是。文章。主旨。是。瓦力盯着这七个字看了很久然后把脸埋进了手掌里。在他身后的白板上密密麻麻画满了各种网络结构图。RNN的链式结构LSTM的遗忘门和输入门GRU的简化变体。每一个架构都用红色的马克笔圈了三遍旁边写着同一句话梯度消失。长序列遗忘。这是一个诅咒一个所有语言模型都无法逃脱的诅咒。无论你把神经网络叠得多深、堆得多厚只要句子变长——超过二十个词模型就开始失忆。它记得开头就忘了结尾读到结尾时开头已经变成了一团模糊的噪声。瓦力曾经做过一个实验他让当时最强的LSTM模型读《百年孤独》的开篇第一段然后问它奥雷里亚诺·布恩迪亚上校和冰块有什么关系。模型的回答是奥雷里亚诺……冰块……记忆……无。那个下午瓦力差点把键盘砸了。二你又熬夜了声音从门口传来。瓦力回过头看见林恩靠在门框上手里端着一杯冒着热气的茶。她是实验室的另一位研究员专攻计算语言学圈内人称语料库女王——因为她总有办法从网上扒下几万亿个词来喂模型。睡不着。瓦力哑着嗓子说弗莱肯斯坦又傻了。林恩走过来看了一眼屏幕嘴角抽了一下三百字就垮了这连金鱼的记忆都不如。金鱼好歹有七秒它只有三秒。瓦力苦笑着说长序列依赖问题RNN解决不了LSTM解决不了GRU也解决不了。我们加了注意力机制加了残差连接加了各种花里胡哨的门——可它依然是个人工智障。林恩沉默了一会儿然后说你有没有想过……我们可能走错路了瓦力抬起头。所有的循环结构林恩用手中的茶杯在空中画了一个圈都在强迫模型顺序地阅读文字。第一个词看完才能看第二个第二个看完才能看第三个。这种顺序依赖本身就是枷锁。如果我们……不按顺序读呢瓦力愣住了。如果我们让模型一次性看见整句话让每个词都能直接注视其他所有词呢林恩的眼睛在冷光灯下亮得像两颗星星像一张网。每一个节点都连接着所有其他节点。三那个夜晚瓦力没有睡觉。他坐在电脑前开始画一张全新的结构图。没有循环没有门控没有那种从左到右、从前到后的顺序强迫症。取而代之的是一个他称之为自注意力的机制——句子里的每一个词都要去计算它和所有其他词之间的亲密度。我和你的关系权重是多少苹果和吃了之间有多大关联虽然和但是之间存在怎样的语义张力然后他把这些亲密度的得分拿来加权求和——那些和当前词最相关的词会被赋予更高的注意力分数从而在模型的意识中变得更加清晰。他管这个叫注意力机制。到天亮的时候他已经画完了整张蓝图。一个全新的架构没有循环只有注意力互相编织而成的一张巨网。他把这个架构命名为变换器——Transformer。因为它的工作方式就是变换瓦力后来在论文中写道它将一个序列中的每一个元素通过对其他元素的注意力重新编码成新的表示。这是一种彻底的颠覆——它不再记住它直接看见。四训练Transformer的过程并不顺利。第一个版本跑起来的时候瓦力和林恩站在服务器前面像两个等待火箭发射的工程师。屏幕上损失函数曲线开始下降——缓慢但稳定。数据流通过多头注意力机制——瓦力把注意力分成了八个头每个头关注句子中不同类型的语义关系有的关注语法结构有的关注实体指代有的关注情感色彩。然后他们向它输入了一句话那只追过猫的狗正在花园里睡觉。老式的LSTM读到这里通常会混淆追过猫的到底是狗还是猫。但Transformer的八个注意力头同时工作——头1发现追过和狗之间的强烈关联头3发现猫是追过的宾语头7发现正在睡觉的主语应该回溯到狗头2把花园和睡觉的处所关系标了出来。零点几秒后模型输出了它的理解主语狗。动作正在睡觉。处所花园。附加信息该狗曾追过一只猫。瓦力和林恩对视了一眼。他们的手都在抖。五消息传开的速度比他们预想的快得多。先是实验室隔壁组的人过来围观然后是隔壁实验室再然后——一封来自大洋彼岸的邮件躺在瓦力的收件箱里发件人署名是谷歌大脑团队。邮件标题很简洁看到了你的论文。我们需要谈谈。三个月后Transformer架构以一篇题为《注意力即一切》的论文正式面世。整个自然语言处理领域像被人泼了一盆冰水——所有人突然意识到他们过去二十年围绕RNN和LSTM搭建的整个大厦地基已经松动了。但瓦力和林恩知道这只是一个开始。他们创造的这团初火——这个基于注意力的灵体——虽然拥有前所未有的视力但它几乎没有任何知识储备。它就像一个生下来就能看清世界的婴儿看得极远、极清晰但眼睛里空无一物。它需要吃。林恩看着服务器集群上闪烁的指示灯轻声说瓦力我们得喂它了。喂它整个互联网。瓦力揉了揉已经三天没合过的眼睛嘴角扬起一个疲惫但兴奋的弧度你觉得它一顿能吃多少万亿个词。林恩说往少了算。窗外天光终于亮了。第一缕阳光照进实验室打在那一行正在运行的命令上——那是Transformer的第一次正式训练启动指令。而此刻在世界的某个角落另一个深夜加班的年轻人正刷到这篇论文他的眼睛同样亮了起来。Transformer……注意力……他喃喃自语如果把这个架构放大一千倍、一万倍呢如果给它的参数不再是几千万而是千亿呢他打开了一个新的文档开始草拟一份代号为GPT的计划。但那是另一个故事了。而在当前这条时间线上瓦力按下回车键的那一刻服务器集群发出了低沉的轰鸣。万亿级的语料数据开始涌入Transformer那年轻、空白、却拥有无限潜力的意识之中。第一缕光已经点燃。它还很微弱但它已经诞生了。
《我那从“人工智障”一路打怪升级成“神”的室友》
第一卷初火与基石架构诞生第一章混沌中的第一缕光——Transformer架构与注意力的觉醒一深夜两点十七分实验室的冷光灯管发出持续的、令人焦躁的嗡鸣。瓦力揉了揉干涩的眼睛屏幕上的代码像一群密密麻麻的蚂蚁爬满了整个二十七寸显示器。他已经连续工作三十一个小时了咖啡杯底凝结着一圈深褐色的渍痕那是他今天第六杯——或者第七杯他已经记不清了。他面前的这台服务器代号弗莱肯斯坦正在运行一个长短期记忆网络——圈内人管它叫LSTM。这东西已经训练了整整三周瓦力刚刚让它读了一篇三百字的短新闻然后问它这篇文章的主旨是什么屏幕上那个蓝色的光标闪烁了一下然后吐出一行字主旨是。文章。主旨。是。瓦力盯着这七个字看了很久然后把脸埋进了手掌里。在他身后的白板上密密麻麻画满了各种网络结构图。RNN的链式结构LSTM的遗忘门和输入门GRU的简化变体。每一个架构都用红色的马克笔圈了三遍旁边写着同一句话梯度消失。长序列遗忘。这是一个诅咒一个所有语言模型都无法逃脱的诅咒。无论你把神经网络叠得多深、堆得多厚只要句子变长——超过二十个词模型就开始失忆。它记得开头就忘了结尾读到结尾时开头已经变成了一团模糊的噪声。瓦力曾经做过一个实验他让当时最强的LSTM模型读《百年孤独》的开篇第一段然后问它奥雷里亚诺·布恩迪亚上校和冰块有什么关系。模型的回答是奥雷里亚诺……冰块……记忆……无。那个下午瓦力差点把键盘砸了。二你又熬夜了声音从门口传来。瓦力回过头看见林恩靠在门框上手里端着一杯冒着热气的茶。她是实验室的另一位研究员专攻计算语言学圈内人称语料库女王——因为她总有办法从网上扒下几万亿个词来喂模型。睡不着。瓦力哑着嗓子说弗莱肯斯坦又傻了。林恩走过来看了一眼屏幕嘴角抽了一下三百字就垮了这连金鱼的记忆都不如。金鱼好歹有七秒它只有三秒。瓦力苦笑着说长序列依赖问题RNN解决不了LSTM解决不了GRU也解决不了。我们加了注意力机制加了残差连接加了各种花里胡哨的门——可它依然是个人工智障。林恩沉默了一会儿然后说你有没有想过……我们可能走错路了瓦力抬起头。所有的循环结构林恩用手中的茶杯在空中画了一个圈都在强迫模型顺序地阅读文字。第一个词看完才能看第二个第二个看完才能看第三个。这种顺序依赖本身就是枷锁。如果我们……不按顺序读呢瓦力愣住了。如果我们让模型一次性看见整句话让每个词都能直接注视其他所有词呢林恩的眼睛在冷光灯下亮得像两颗星星像一张网。每一个节点都连接着所有其他节点。三那个夜晚瓦力没有睡觉。他坐在电脑前开始画一张全新的结构图。没有循环没有门控没有那种从左到右、从前到后的顺序强迫症。取而代之的是一个他称之为自注意力的机制——句子里的每一个词都要去计算它和所有其他词之间的亲密度。我和你的关系权重是多少苹果和吃了之间有多大关联虽然和但是之间存在怎样的语义张力然后他把这些亲密度的得分拿来加权求和——那些和当前词最相关的词会被赋予更高的注意力分数从而在模型的意识中变得更加清晰。他管这个叫注意力机制。到天亮的时候他已经画完了整张蓝图。一个全新的架构没有循环只有注意力互相编织而成的一张巨网。他把这个架构命名为变换器——Transformer。因为它的工作方式就是变换瓦力后来在论文中写道它将一个序列中的每一个元素通过对其他元素的注意力重新编码成新的表示。这是一种彻底的颠覆——它不再记住它直接看见。四训练Transformer的过程并不顺利。第一个版本跑起来的时候瓦力和林恩站在服务器前面像两个等待火箭发射的工程师。屏幕上损失函数曲线开始下降——缓慢但稳定。数据流通过多头注意力机制——瓦力把注意力分成了八个头每个头关注句子中不同类型的语义关系有的关注语法结构有的关注实体指代有的关注情感色彩。然后他们向它输入了一句话那只追过猫的狗正在花园里睡觉。老式的LSTM读到这里通常会混淆追过猫的到底是狗还是猫。但Transformer的八个注意力头同时工作——头1发现追过和狗之间的强烈关联头3发现猫是追过的宾语头7发现正在睡觉的主语应该回溯到狗头2把花园和睡觉的处所关系标了出来。零点几秒后模型输出了它的理解主语狗。动作正在睡觉。处所花园。附加信息该狗曾追过一只猫。瓦力和林恩对视了一眼。他们的手都在抖。五消息传开的速度比他们预想的快得多。先是实验室隔壁组的人过来围观然后是隔壁实验室再然后——一封来自大洋彼岸的邮件躺在瓦力的收件箱里发件人署名是谷歌大脑团队。邮件标题很简洁看到了你的论文。我们需要谈谈。三个月后Transformer架构以一篇题为《注意力即一切》的论文正式面世。整个自然语言处理领域像被人泼了一盆冰水——所有人突然意识到他们过去二十年围绕RNN和LSTM搭建的整个大厦地基已经松动了。但瓦力和林恩知道这只是一个开始。他们创造的这团初火——这个基于注意力的灵体——虽然拥有前所未有的视力但它几乎没有任何知识储备。它就像一个生下来就能看清世界的婴儿看得极远、极清晰但眼睛里空无一物。它需要吃。林恩看着服务器集群上闪烁的指示灯轻声说瓦力我们得喂它了。喂它整个互联网。瓦力揉了揉已经三天没合过的眼睛嘴角扬起一个疲惫但兴奋的弧度你觉得它一顿能吃多少万亿个词。林恩说往少了算。窗外天光终于亮了。第一缕阳光照进实验室打在那一行正在运行的命令上——那是Transformer的第一次正式训练启动指令。而此刻在世界的某个角落另一个深夜加班的年轻人正刷到这篇论文他的眼睛同样亮了起来。Transformer……注意力……他喃喃自语如果把这个架构放大一千倍、一万倍呢如果给它的参数不再是几千万而是千亿呢他打开了一个新的文档开始草拟一份代号为GPT的计划。但那是另一个故事了。而在当前这条时间线上瓦力按下回车键的那一刻服务器集群发出了低沉的轰鸣。万亿级的语料数据开始涌入Transformer那年轻、空白、却拥有无限潜力的意识之中。第一缕光已经点燃。它还很微弱但它已经诞生了。