一、主流中英静态词向量表总览Word2Vec / GloVe / FastText静态词向量一词唯一固定向量无上下文变化文件格式统一首行总词数 向量维度后续每行单词 浮点数列表。一英文常用预训练词向量1. Word2VecGoogle News 原版表格名称训练语料词表规模维度核心参数特点GoogleNews-vectors-negative300谷歌新闻 100B 词300 万词300dSkipGram、window5、负采样 5、epoch5、min_count5英文通用标杆侧重句法、日常用词OOV 无法生成向量格式.bin二进制gensim 专用、.txt文本。2. GloVe斯坦福 4 大官方版本表格模型训练语料词汇量维度训练参数适用场景glove.6BWikiGigaword6B40W50/100/200/300window10、迭代 100 轮、全局共现矩阵通用文本、小数据集首选glove.42BCommon Crawl(42B)190W300全局词共现加权网页、资讯glove.840BCommon Crawl(840B)220W300区分大小写海量互联网文本glove.twitter.27B推特 27B120W25/50/100/200口语化训练短文本、评论、社交媒体原理全局词共现统计 局部上下文结合类比推理效果最优。3. FastTextMeta 官方cc.en.300Common Crawl 维基百科300 维、150W 词wiki.en.300纯英文维基300 维独有优势依靠子词 n-gramOOV 生词也能拼接生成向量分.vec(文本)、.bin(二进制)两种格式。二中文常用预训练词向量Chinese-Word-Vectors 项目最全清华 / 哈工大开源项目仓库Embedding/Chinese-Word-Vectors分Word2Vec(SGNS)、GloVe、FastText三类主流 5 类语料表格语料来源维度词表量级训练通用基准参数适用领域百度百科300d~80Wwindow5、动态窗口、负采样 5、min_count10、epoch5通用百科、常识文本搜狗新闻300d~60W同上新闻、资讯、财经文本微博300d~70W同上社交媒体、评论、口语人民日报300d~40W同上时政、正式公文中文维基300d~50W同上百科、书面语单独知名中文词向量哈工大 GloVe 中文新闻 百科混合300 维适合中文分类、相似度任务FastText 中文 cc.zh.300Meta 开源全网爬虫训练OOV 生词可用字符子词生成向量。二、词向量五大核心训练参数详解所有词向量通用1. vector_size向量维度d含义单个词语向量浮点数个数、语义空间维度常用50/100/200/30050~100小语料、轻量任务短文本分类、关键词300工业标准大语料通用所有官方预训练默认 300500边际收益极低、内存暴涨极少使用。2. window上下文窗口大小中心词左右各取 window 个词作为上下文window2~3小窗口→学习语法、词性、短语搭配window5默认平衡语义 语法绝大多数预训练配置window8~10大窗口→远距离上下文、主题语义、篇章关联注Chinese-Word-Vectors 使用动态窗口高频词自动缩小窗口、低频放大。3. min_count最小词频阈值出现次数该数值的词直接丢弃、不进词表min_count5小语料min_count10千万级大语料中英文预训练通用 作用过滤错别字、生僻稀有词降低噪声、压缩词表体积。4. sg训练架构CBOW/SkipGram仅 Word2Vec/FastTextsg1 → SkipGram官方预训练主流用中心词预测上下文低频词效果好、类比强Google、中文词向量全用 SkipGramsg0 → CBOW上下文预测中心词训练更快、高频词效果优少用于预训练大模型。5. negative负采样数量每 1 个正样本随机取 N 个无关词当负样本替代全量 softmax 加速训练标准配置 negative5所有公开预训练默认大语料可取 3~5小语料 5~10。补充独有参数GloVe 独有x_max共现截断阈值默认 100控制高频共现词权重依赖全局共现矩阵训练耗内存高于 Word2VecFastText 独有n-gram 字符子词长度默认 min3,max6拆汉字 / 英文词根解决 OOV 生词问题。三、三类词向量优缺点 选型对照表格类型优点短板适用场景Word2Vec(SGNS)训练快、占用小、句法优秀无全局统计、生词无法编码分类、聚类、关键词抽取GloVe融合全局词频 局部上下文、词语类比顶尖训练慢、耗内存、无 OOV词语相似度、知识推理、小样本 NLPFastText支持子词、生词自动生成向量、多语言友好向量噪声略高分词、实体识别、生僻词多的垂直领域医疗 / 法律四、最简加载示例Gensim 读取预训练词向量python运行from gensim.models import KeyedVectors # 1.加载英文GloVe(转w2v格式) / 中文Chinese-Word-Vectors词向量 w2v KeyedVectors.load_word2vec_format(sgns.baidubaike.word, binaryFalse) # 查词向量 vec w2v[人工智能] # 查相似度 sim w2v.similarity(苹果,香蕉)五、选型速查表英文通用小样本→glove.6B.300海量文本→glove.840B口语评论→twitter27BOOV 多→fastText cc.en中文通用百科常识→百度百科 SGNS新闻→搜狗新闻 GloVe生僻词多→FastText cc.zh.300
[智能体-282]:常见的中英词静态向量表以及主要参数阐述
一、主流中英静态词向量表总览Word2Vec / GloVe / FastText静态词向量一词唯一固定向量无上下文变化文件格式统一首行总词数 向量维度后续每行单词 浮点数列表。一英文常用预训练词向量1. Word2VecGoogle News 原版表格名称训练语料词表规模维度核心参数特点GoogleNews-vectors-negative300谷歌新闻 100B 词300 万词300dSkipGram、window5、负采样 5、epoch5、min_count5英文通用标杆侧重句法、日常用词OOV 无法生成向量格式.bin二进制gensim 专用、.txt文本。2. GloVe斯坦福 4 大官方版本表格模型训练语料词汇量维度训练参数适用场景glove.6BWikiGigaword6B40W50/100/200/300window10、迭代 100 轮、全局共现矩阵通用文本、小数据集首选glove.42BCommon Crawl(42B)190W300全局词共现加权网页、资讯glove.840BCommon Crawl(840B)220W300区分大小写海量互联网文本glove.twitter.27B推特 27B120W25/50/100/200口语化训练短文本、评论、社交媒体原理全局词共现统计 局部上下文结合类比推理效果最优。3. FastTextMeta 官方cc.en.300Common Crawl 维基百科300 维、150W 词wiki.en.300纯英文维基300 维独有优势依靠子词 n-gramOOV 生词也能拼接生成向量分.vec(文本)、.bin(二进制)两种格式。二中文常用预训练词向量Chinese-Word-Vectors 项目最全清华 / 哈工大开源项目仓库Embedding/Chinese-Word-Vectors分Word2Vec(SGNS)、GloVe、FastText三类主流 5 类语料表格语料来源维度词表量级训练通用基准参数适用领域百度百科300d~80Wwindow5、动态窗口、负采样 5、min_count10、epoch5通用百科、常识文本搜狗新闻300d~60W同上新闻、资讯、财经文本微博300d~70W同上社交媒体、评论、口语人民日报300d~40W同上时政、正式公文中文维基300d~50W同上百科、书面语单独知名中文词向量哈工大 GloVe 中文新闻 百科混合300 维适合中文分类、相似度任务FastText 中文 cc.zh.300Meta 开源全网爬虫训练OOV 生词可用字符子词生成向量。二、词向量五大核心训练参数详解所有词向量通用1. vector_size向量维度d含义单个词语向量浮点数个数、语义空间维度常用50/100/200/30050~100小语料、轻量任务短文本分类、关键词300工业标准大语料通用所有官方预训练默认 300500边际收益极低、内存暴涨极少使用。2. window上下文窗口大小中心词左右各取 window 个词作为上下文window2~3小窗口→学习语法、词性、短语搭配window5默认平衡语义 语法绝大多数预训练配置window8~10大窗口→远距离上下文、主题语义、篇章关联注Chinese-Word-Vectors 使用动态窗口高频词自动缩小窗口、低频放大。3. min_count最小词频阈值出现次数该数值的词直接丢弃、不进词表min_count5小语料min_count10千万级大语料中英文预训练通用 作用过滤错别字、生僻稀有词降低噪声、压缩词表体积。4. sg训练架构CBOW/SkipGram仅 Word2Vec/FastTextsg1 → SkipGram官方预训练主流用中心词预测上下文低频词效果好、类比强Google、中文词向量全用 SkipGramsg0 → CBOW上下文预测中心词训练更快、高频词效果优少用于预训练大模型。5. negative负采样数量每 1 个正样本随机取 N 个无关词当负样本替代全量 softmax 加速训练标准配置 negative5所有公开预训练默认大语料可取 3~5小语料 5~10。补充独有参数GloVe 独有x_max共现截断阈值默认 100控制高频共现词权重依赖全局共现矩阵训练耗内存高于 Word2VecFastText 独有n-gram 字符子词长度默认 min3,max6拆汉字 / 英文词根解决 OOV 生词问题。三、三类词向量优缺点 选型对照表格类型优点短板适用场景Word2Vec(SGNS)训练快、占用小、句法优秀无全局统计、生词无法编码分类、聚类、关键词抽取GloVe融合全局词频 局部上下文、词语类比顶尖训练慢、耗内存、无 OOV词语相似度、知识推理、小样本 NLPFastText支持子词、生词自动生成向量、多语言友好向量噪声略高分词、实体识别、生僻词多的垂直领域医疗 / 法律四、最简加载示例Gensim 读取预训练词向量python运行from gensim.models import KeyedVectors # 1.加载英文GloVe(转w2v格式) / 中文Chinese-Word-Vectors词向量 w2v KeyedVectors.load_word2vec_format(sgns.baidubaike.word, binaryFalse) # 查词向量 vec w2v[人工智能] # 查相似度 sim w2v.similarity(苹果,香蕉)五、选型速查表英文通用小样本→glove.6B.300海量文本→glove.840B口语评论→twitter27BOOV 多→fastText cc.en中文通用百科常识→百度百科 SGNS新闻→搜狗新闻 GloVe生僻词多→FastText cc.zh.300