不可思议的Word2Vec:训练好的模型
简介
本资源文件提供了一个经过训练的Word2Vec模型,该模型基于微信公众号文章的多领域中文平衡语料进行训练。模型包含了352196个词汇,使用Skip-Gram + Huffman Softmax结构,向量维度为256维。该模型适用于中文文本处理任务,如词向量生成、近义词查找等。
模型概况
- 训练语料:微信公众号文章,多领域,属于中文平衡语料
- 语料数量:800万篇,总词数达到650亿
- 模型词数:共352196词,基本是中文词,包含常见英文词
- 模型结构:Skip-Gram + Huffman Softmax
- 向量维度:256维
- 分词工具:结巴分词,加入了有50万词条的词典,关闭了新词发现
- 训练工具:Gensim的Word2Vec,服务器训练了7天
- 其他情况:窗口大小为10,最小词频是64,迭代了10次
使用说明
- 加载模型:使用Gensim库加载模型文件。
- 词向量生成:通过模型获取词汇的词向量。
- 近义词查找:使用模型查找与指定词汇相近的词汇。
示例代码
import gensim
# 加载模型
model = gensim.models.Word2Vec.load('word2vec_wx')
# 查找近义词
similar_words = model.most_similar(u'微信')
print(similar_words)
注意事项
- 该模型适用于中文文本处理任务,建议在类似语料环境下使用。
- 模型的训练语料主要来自微信公众号文章,因此对于其他类型的文本可能效果有所不同。
下载链接
请访问原始文章获取下载链接。