1.gensim的安装#
可以使用如下命令安装gensim
conda install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim==3.8.2
2.生成分词列表#
这一步已经有生成好的分词列表可以忽略 项目列表:
点击查看代码
3.模型训练以及保存和测试#
import gensim from gensim.models import Word2Vec, word2vec # 加载语料库 #sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]] # 训练模型 words_file='data.txt' #words_file是词语文件的名称,其中包含一行一个词语的文本。 #word2vec.LineSentence是gensim库中的语料生成器,它可以将一个文件转换为词语列表。 sentences = list(word2vec.LineSentence(words_file)) # 加载分词后的文件 #sentences是训练语料库,是一个列表,每一个元素是一个词列表,表示一个句子 #size参数指定词向量的维数。 #window参数指定在一个句子中,一个词的上下文词的数量 #min_count参数指定在训练模型时,词频低于指定数量的词将被忽略 #workers参数指定训练模型时使用的工作线程数 model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 保存模型 model.save("word2vec.model") # 加载模型 model = gensim.models.Word2Vec.load("word2vec.model") # 测试五组词的相似度 test_words = ["数据", "领域", "规模", "融合", "模型"] for word in test_words: similar_words = model.wv.most_similar(word) print("Word:", word) print("Similar words:", similar_words)
运行结果图