PYTHON+AI LLM DAY FIFITY-SEVEN

PYTHON+AI LLM DAY FIFITY-SEVEN 今天聊聊BERT:BERT是google于2018年基于Transformer架构中的编码器(Encoder,双向的)部分构建的一种自然语言处理(NLP)模型.在11种不同的NLP测试中创造出SOTA表现,由于其核心结构是基于Transformer架构中的编码器部分,因此,它在处理自然语言的理解上发挥的效果很好.根据其模型尺寸,BERT模型的base版编码器部分是默认12层,BERT模型的large版编码器部分是默认24层.BERT模型的架构:主要是Embedding模块,Transformer模块,预微调模块.BERT中的Embedding模块是由三种Embedding组成.分别是:Token Embeddings:第一个单词是CLS标志(也是拿到输入的所有句子的全部信息的地方,也是后面交给全连接层后池化层处理后的结果输出部分的地方),可用于之后的分类任务.Segment Embeddings为输入两个句子服务.Position Embeddings 是通过学习得出来的.Transformer模块:只使用Transformer架构中的Encoder部分,完全舍弃了Decoder部分.预微调模块:BERT的最后一层,可以根据不同任务而做不同调整.输入两个句子,判断两个句子的关系(分类问题)是否相识,是否蕴含,中性,矛盾.输入一个句子进行分类,判断情感分析,语法是否正确.输入一个问题,一个上下文,就是让模型拿着上下文去回答问题.输入一个句子进行token级别分类:分词,词性标注.BERT模型的两大阶段:预训练,微调.预训练就是让模型在超大语料上采用无监督学习或弱监督学习的方式训练模型,期望模型能够获得语言相关知识.句法,语法等.一般经过大语料的训练,模型具备更多语言知识和更大参数量,这就是所谓的大力出奇迹.基于预训练任务产生BERT模型的两大核心任务:MLM:掩码任务,类似于完形填空纠错,NSP:下一句任务,根据上一个句子来预测下一个句子.