Base LLM| datawhale day01-尧图企业网站定制

第一节 NLP 概述一、自然语言处理是什么1.1 定义与核心任务赋予计算机理解、解释、生成人类语言的能力并基于这些能力对文本数据进行决策(1)通俗理解就是教会计算机“读懂”文字、“听懂”语音并能像人一样“说出”话语、完成任务。自然语言理解Natural Language UnderstandingNLU负责“读懂”也就是输入语言输出结构化信息。自然语言生成Natural Language GenerationNLG负责“说出”即输入结构化信息输出语言。1.2 NLP 的技术层次处理过程划分为四个由浅入深的层次词法分析处理文本的基础单元——词。分词和词性标注句法分析分析句子的语法结构形成“语法树”理解词语如何组合成句语义分析理解句子和词语的真实含义解决歧义问题。主要任务有词义消歧和关系抽取语用分析在特定语境下理解语言的意图是 NLP 中最具挑战性的层次。二、NLP 的发展历程从规则到智能1萌芽期1950s图灵测试与早期探索提出的“图灵测试”成为衡量机器智能的终极愿景也为 NLP 设定了宏伟目标。2规则时代1960s-1980s符号主义的探索主要思想是用逻辑规则来描述语言。3统计时代1990s-2000s数据的力量统计学派主张“与其让专家告诉计算机规则不如让计算机自己从数据中学习规律”。N-gram 模型、隐马尔可夫模型HMM、条件随机场CRF等成为主流技术。4深度学习时代2010s-至今智能的飞跃神经网络的复兴特别是深度学习技术为 NLP 带来了革命性的突破2013 年Word2Vec将词语表示为稠密的数字向量即词向量使模型能在向量空间中捕捉到一定的分布式语义规律2017 年发布的 Transformer 进一步将自注意力作为核心计算单元摆脱了 RNN 的顺序计算限制使模型在处理每个 token 时能同时利用全局上下文信息2018 年问世的BERT通过掩码语言模型等预训练任务学习上下文语义表示推动了预训练-微调范式的普及2020 年 GPT-3其大规模参数与数据带来了更强的少样本/零样本泛化能力标志着大语言模型LLM时代的到来 (8)。2022 年 ChatGPT 通过指令微调与人类反馈强化学习RLHF等对齐方法让大模型以更符合人类使用习惯的对话方式对外呈现进一步推动了 AI 的大众化应用三、NLP 的主要任务文本分类(Text Classification)命名实体识别(NER)关系抽取(Relation Extraction)机器翻译(Machine Translation)文本摘要(Text Summarization)问答系统(Question Answering)文本生成(Text Generation)对话系统(Dialogue System)四、NLP 面临的主要挑战1语言、知识与推理的挑战语言的歧义性是 NLP 面临的首要经典难题。词法歧义、结构歧义、缺乏人类与生俱来的常识与世界知识2技术、数据与伦理的挑战模型幻觉、数据质量与稀缺性构成了双重困境。低资源语言难以享受技术进步的红利训练数据中潜藏的性别歧视、种族偏见等数据偏差一旦被模型内化甚至放大便会导致算法产出不公平的观点。模型规模的指数级增长计算成本也水涨船高。还有关于深度学习模型的“黑箱”性质带来的可解释性与安全性风险的担忧。

相关新闻

Hi3519芯片开发过程笔记：四、Uboot环境变量nand_env.bin镜像生成方法(默认环境变量设置方法)

单链表应用：双指针【快慢指针】

东方仙盟・神识共创共生，智启万象—架构思路—未来之窗行业应用跨平台架构

ElevenLabs马拉雅拉姆文支持深度解析：3大未公开API限制、4种音色适配陷阱与实时绕过方案

OpenClaw量化回测性能调优指南：从数据加载到并行计算的实战优化

基于RP2040的USB HID重映射与连发控制器实战指南

3D打印DIY可调节磁吸口罩夹：从PLA材料到磁铁组装的完整指南

ESP32电子墨水屏低功耗显示终端：从硬件选型到软件实现

独立开发者如何管理多个项目的API密钥与访问权限

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感