自然语言处理中的词嵌入——从离散符号到语义向量空间

自然语言处理中的词嵌入——从离散符号到语义向量空间 目录一、前言二、什么是词嵌入一基本定义二一句话理解三示例三、词嵌入的核心思想一分布式假设二经典观点三核心目标四、词嵌入与One-hot对比一One-hot表示问题二词嵌入表示优点五、词嵌入的几何意义一向量空间模型二语义距离三意义六、经典词嵌入方法七、Word2Vec模型一核心思想二两种训练方式1、CBOWContinuous Bag of Words2、Skip-gram三训练目标八、GloVe模型一核心思想二特点三优势九、FastText模型一核心思想二优势三示例十、词嵌入的训练方式一监督信号来自文本二训练方式三目标函数十一、词嵌入在NLP中的作用一输入表示二模型基础三公式表达十二、词嵌入的语义能力一语义相似二语义关系三线性结构十三、词嵌入的局限性一静态表示二多义词问题三无法动态变化十四、词嵌入 vs 上下文嵌入一词嵌入二上下文嵌入十五、词嵌入的发展趋势一从静态到动态二从词到子词三从浅层到深层语义十六、词嵌入应用一搜索引擎二推荐系统三文本分类四问答系统十七、词嵌入结构总结十八、总结一、前言在Natural Language Processing中一个核心问题始终存在如何让机器理解“词语的语义”早期方法把词当作离散符号one-hot但这种方式存在严重问题词与词之间“没有任何语义关系”为了解决这个问题词嵌入Word Embedding技术被提出。二、什么是词嵌入一基本定义词嵌入是指将词语映射到一个低维、稠密的向量空间二一句话理解用“坐标”表示词语的语义三示例“国王” → [0.25, -1.3, 0.8, ...] “皇后” → [0.22, -1.2, 0.85, ...]三、词嵌入的核心思想一分布式假设一个词的意义由其上下文决定二经典观点You shall know a word by the company it keeps三核心目标语义相近的词在向量空间中距离更近四、词嵌入与One-hot对比一One-hot表示“猫” [0,0,1,0,0,...]问题高维稀疏无语义关系二词嵌入表示“猫” [0.12, -0.8, 0.3, ...]优点低维稠密可计算语义五、词嵌入的几何意义一向量空间模型词 → 向量 → 空间坐标二语义距离\text{similarity}(a,b)\cos(\theta)\frac{a\cdot b}{|a||b|}三意义语义相似 ≈ 向量夹角小六、经典词嵌入方法七、Word2Vec模型Word2Vec 是词嵌入的里程碑方法。一核心思想通过预测上下文学习词向量二两种训练方式1、CBOWContinuous Bag of Words上下文 → 预测中心词2、Skip-gram中心词 → 预测上下文三训练目标最大化上下文预测概率八、GloVe模型GloVe一核心思想基于全局词共现矩阵学习词向量二特点利用统计信息全局语义建模三优势兼顾局部与全局语义九、FastText模型FastText一核心思想词 子词n-gram组合二优势解决OOV问题支持形态变化三示例playing → play ing十、词嵌入的训练方式一监督信号来自文本无需人工标注二训练方式自监督学习三目标函数最大化上下文预测能力十一、词嵌入在NLP中的作用一输入表示token → embedding → model二模型基础RNNCNNTransformer三公式表达x_i Embedding(w_i)十二、词嵌入的语义能力一语义相似猫 ≈ 狗二语义关系king - man woman ≈ queen三线性结构语义关系 ≈ 向量运算十三、词嵌入的局限性一静态表示一个词只有一个向量二多义词问题bank银行 / 河岸三无法动态变化十四、词嵌入 vs 上下文嵌入一词嵌入Word2Vec / GloVe静态向量二上下文嵌入BERT同一个词在不同句子中向量不同十五、词嵌入的发展趋势一从静态到动态Word2Vec → BERT二从词到子词Subword embedding三从浅层到深层语义Transformer表示十六、词嵌入应用一搜索引擎语义检索二推荐系统用户兴趣建模三文本分类情感分析四问答系统语义匹配十七、词嵌入结构总结Text ↓ Tokenization ↓ Embedding Layer ↓ Vector Representation ↓ Neural Network十八、总结词嵌入是自然语言处理中的基础技术它将离散的语言符号转化为连续的向量空间使机器能够理解语义关系并为后续深度学习模型提供统一输入表示。本文系统讲解了1、词嵌入基本概念2、与One-hot对比3、向量空间语义4、Word2Vec模型5、GloVe模型6、FastText模型7、训练方式8、语义能力9、局限性10、上下文嵌入发展11、应用场景可以将词嵌入理解为“将语言从符号世界映射到几何空间使语义关系变得可计算。”掌握词嵌入就掌握了语言进入神经网络世界的第一层表示方式。