词向量、文本向量的统一本质自然语言→实数特征向量把人类语义翻译成模型可运算的数字原始信息与特征作为各类 NLP 模型、大模型的标准化输入。模型能够根据这些信息特征进行更深层析信息与特征的提取。一、分层对应前面四条技术路线OneHot单词稀疏向量文字→稀疏数字仅完成字符 / 单词数字化几乎不带语义只能区分词语不同无法表达词义关联是最原始的输入特征。BoW 词袋文本稀疏向量整段文本按词频转为稀疏特征实现整句数字化只统计词语出现次数丢失语序、内在语义传统机器学习朴素贝叶斯、SVM的经典输入。Word2Vec单词稠密向量单个词语映射低维稠密小数嵌入词语内在语义近义词向量空间靠近给下游分类、聚类提供带词义的单词特征若要做文本输入只能用词向量平均 / 求和拼接。BGE/E5文本稠密向量直接对整句、段落编码完整承载全文语义、语序、上下文逻辑、隐含意图是当下 RAG 检索、大模型知识库召回、文本匹配的主流输入向量。二、统一核心作用格式转化计算机不能读懂汉字、英文只能计算浮点数字向量就是语言与模型之间的翻译桥梁语义封装优秀的稠密向量Word2Vec/BGE不再只是符号编号把词义、段落含义压缩在一串数字里统一输入无论单词还是段落最终统一为固定长度数组满足神经网络、大模型对输入格式的要求。三、演进逻辑闭环从无意义编号OneHot/BoW 稀疏→承载单词语义Word2Vec 稠密词向量→承载全文语义BGE 稠密文本向量迭代目标始终不变让向量越来越贴近人类真实语义给模型高质量输入。四、补充大模型视角大模型内部的 Embedding 层本质也是词向量和 Word2Vec 逻辑同源而 BGE 这类句向量常作为大模型外挂知识库的检索输入先向量匹配召回相关文档再送入大模型做生成是大模型落地必不可少的前置特征。
[智能体-275]:无论是词向量,还是文本向量,本质上是把自然语言的文字,转换成大模型能够识别的特性向量,能够表征语言文字自身的内在语义特征,作为大模型的输入
词向量、文本向量的统一本质自然语言→实数特征向量把人类语义翻译成模型可运算的数字原始信息与特征作为各类 NLP 模型、大模型的标准化输入。模型能够根据这些信息特征进行更深层析信息与特征的提取。一、分层对应前面四条技术路线OneHot单词稀疏向量文字→稀疏数字仅完成字符 / 单词数字化几乎不带语义只能区分词语不同无法表达词义关联是最原始的输入特征。BoW 词袋文本稀疏向量整段文本按词频转为稀疏特征实现整句数字化只统计词语出现次数丢失语序、内在语义传统机器学习朴素贝叶斯、SVM的经典输入。Word2Vec单词稠密向量单个词语映射低维稠密小数嵌入词语内在语义近义词向量空间靠近给下游分类、聚类提供带词义的单词特征若要做文本输入只能用词向量平均 / 求和拼接。BGE/E5文本稠密向量直接对整句、段落编码完整承载全文语义、语序、上下文逻辑、隐含意图是当下 RAG 检索、大模型知识库召回、文本匹配的主流输入向量。二、统一核心作用格式转化计算机不能读懂汉字、英文只能计算浮点数字向量就是语言与模型之间的翻译桥梁语义封装优秀的稠密向量Word2Vec/BGE不再只是符号编号把词义、段落含义压缩在一串数字里统一输入无论单词还是段落最终统一为固定长度数组满足神经网络、大模型对输入格式的要求。三、演进逻辑闭环从无意义编号OneHot/BoW 稀疏→承载单词语义Word2Vec 稠密词向量→承载全文语义BGE 稠密文本向量迭代目标始终不变让向量越来越贴近人类真实语义给模型高质量输入。四、补充大模型视角大模型内部的 Embedding 层本质也是词向量和 Word2Vec 逻辑同源而 BGE 这类句向量常作为大模型外挂知识库的检索输入先向量匹配召回相关文档再送入大模型做生成是大模型落地必不可少的前置特征。