第一节 NLP 概述一、自然语言处理是什么1.1 定义与核心任务赋予计算机理解、解释、生成人类语言的能力并基于这些能力对文本数据进行决策(1)通俗理解就是教会计算机“读懂”文字、“听懂”语音并能像人一样“说出”话语、完成任务。自然语言理解Natural Language UnderstandingNLU负责“读懂”也就是输入语言输出结构化信息。自然语言生成Natural Language GenerationNLG负责“说出”即输入结构化信息输出语言。1.2 NLP 的技术层次处理过程划分为四个由浅入深的层次词法分析处理文本的基础单元——词。分词和词性标注句法分析分析句子的语法结构形成“语法树”理解词语如何组合成句语义分析理解句子和词语的真实含义解决歧义问题。主要任务有词义消歧和关系抽取语用分析在特定语境下理解语言的意图是 NLP 中最具挑战性的层次。二、NLP 的发展历程从规则到智能1萌芽期1950s图灵测试与早期探索 提出的“图灵测试”成为衡量机器智能的终极愿景也为 NLP 设定了宏伟目标。2规则时代1960s-1980s符号主义的探索主要思想是用逻辑规则来描述语言。3统计时代1990s-2000s数据的力量统计学派主张“与其让专家告诉计算机规则不如让计算机自己从数据中学习规律”。N-gram 模型、隐马尔可夫模型HMM、条件随机场CRF等成为主流技术。4深度学习时代2010s-至今智能的飞跃神经网络的复兴特别是深度学习技术为 NLP 带来了革命性的突破2013 年Word2Vec将词语表示为稠密的数字向量即词向量使模型能在向量空间中捕捉到一定的分布式语义规律2017 年发布的 Transformer 进一步将自注意力作为核心计算单元摆脱了 RNN 的顺序计算限制使模型在处理每个 token 时能同时利用全局上下文信息2018 年问世的BERT通过掩码语言模型等预训练任务学习上下文语义表示推动了预训练-微调范式的普及2020 年 GPT-3其大规模参数与数据带来了更强的少样本/零样本泛化能力标志着大语言模型LLM时代的到来 (8)。2022 年 ChatGPT 通过指令微调与人类反馈强化学习RLHF等对齐方法让大模型以更符合人类使用习惯的对话方式对外呈现进一步推动了 AI 的大众化应用三、NLP 的主要任务文本分类(Text Classification)命名实体识别(NER)关系抽取(Relation Extraction)机器翻译(Machine Translation)文本摘要(Text Summarization)问答系统(Question Answering)文本生成(Text Generation)对话系统(Dialogue System)四、NLP 面临的主要挑战1语言、知识与推理的挑战语言的歧义性是 NLP 面临的首要经典难题。词法歧义、结构歧义、缺乏人类与生俱来的常识与世界知识2技术、数据与伦理的挑战模型幻觉、数据质量与稀缺性构成了双重困境。低资源语言难以享受技术进步的红利训练数据中潜藏的性别歧视、种族偏见等数据偏差一旦被模型内化甚至放大便会导致算法产出不公平的观点。模型规模的指数级增长计算成本也水涨船高。还有关于深度学习模型的“黑箱”性质带来的可解释性与安全性风险的担忧。
Base LLM| datawhale day01
第一节 NLP 概述一、自然语言处理是什么1.1 定义与核心任务赋予计算机理解、解释、生成人类语言的能力并基于这些能力对文本数据进行决策(1)通俗理解就是教会计算机“读懂”文字、“听懂”语音并能像人一样“说出”话语、完成任务。自然语言理解Natural Language UnderstandingNLU负责“读懂”也就是输入语言输出结构化信息。自然语言生成Natural Language GenerationNLG负责“说出”即输入结构化信息输出语言。1.2 NLP 的技术层次处理过程划分为四个由浅入深的层次词法分析处理文本的基础单元——词。分词和词性标注句法分析分析句子的语法结构形成“语法树”理解词语如何组合成句语义分析理解句子和词语的真实含义解决歧义问题。主要任务有词义消歧和关系抽取语用分析在特定语境下理解语言的意图是 NLP 中最具挑战性的层次。二、NLP 的发展历程从规则到智能1萌芽期1950s图灵测试与早期探索 提出的“图灵测试”成为衡量机器智能的终极愿景也为 NLP 设定了宏伟目标。2规则时代1960s-1980s符号主义的探索主要思想是用逻辑规则来描述语言。3统计时代1990s-2000s数据的力量统计学派主张“与其让专家告诉计算机规则不如让计算机自己从数据中学习规律”。N-gram 模型、隐马尔可夫模型HMM、条件随机场CRF等成为主流技术。4深度学习时代2010s-至今智能的飞跃神经网络的复兴特别是深度学习技术为 NLP 带来了革命性的突破2013 年Word2Vec将词语表示为稠密的数字向量即词向量使模型能在向量空间中捕捉到一定的分布式语义规律2017 年发布的 Transformer 进一步将自注意力作为核心计算单元摆脱了 RNN 的顺序计算限制使模型在处理每个 token 时能同时利用全局上下文信息2018 年问世的BERT通过掩码语言模型等预训练任务学习上下文语义表示推动了预训练-微调范式的普及2020 年 GPT-3其大规模参数与数据带来了更强的少样本/零样本泛化能力标志着大语言模型LLM时代的到来 (8)。2022 年 ChatGPT 通过指令微调与人类反馈强化学习RLHF等对齐方法让大模型以更符合人类使用习惯的对话方式对外呈现进一步推动了 AI 的大众化应用三、NLP 的主要任务文本分类(Text Classification)命名实体识别(NER)关系抽取(Relation Extraction)机器翻译(Machine Translation)文本摘要(Text Summarization)问答系统(Question Answering)文本生成(Text Generation)对话系统(Dialogue System)四、NLP 面临的主要挑战1语言、知识与推理的挑战语言的歧义性是 NLP 面临的首要经典难题。词法歧义、结构歧义、缺乏人类与生俱来的常识与世界知识2技术、数据与伦理的挑战模型幻觉、数据质量与稀缺性构成了双重困境。低资源语言难以享受技术进步的红利训练数据中潜藏的性别歧视、种族偏见等数据偏差一旦被模型内化甚至放大便会导致算法产出不公平的观点。模型规模的指数级增长计算成本也水涨船高。还有关于深度学习模型的“黑箱”性质带来的可解释性与安全性风险的担忧。