基于python的gensim word2vec训练词向量

cenylon

2018-09-05

准备工作

当我们下载了anaconda后，可以在命令窗口通过命令

conda install gensim
1

安装gensim

gensim介绍

gensim是一款强大的自然语言处理工具，里面包括N多常见模型，我们体验一下：

interfaces – Core gensim interfaces
utils – Various utility functions
matutils – Math utils
corpora.bleicorpus – Corpus in Blei’s LDA-C format
corpora.dictionary – Construct word&lt;-&gt;id mappings
corpora.hashdictionary – Construct word&lt;-&gt;id mappings
corpora.lowcorpus – Corpus in List-of-Words format
corpora.mmcorpus – Corpus in Matrix Market format
corpora.svmlightcorpus – Corpus in SVMlight format
corpora.wikicorpus – Corpus from a Wikipedia dump
corpora.textcorpus – Building corpora with dictionaries
corpora.ucicorpus – Corpus in UCI bag-of-words format
corpora.indexedcorpus – Random access to corpus documents
models.ldamodel – Latent Dirichlet Allocation
models.ldamulticore – parallelized Latent Dirichlet Allocation
models.ldamallet – Latent Dirichlet Allocation via Mallet
models.lsimodel – Latent Semantic Indexing
models.tfidfmodel – TF-IDF model
models.rpmodel – Random Projections
models.hdpmodel – Hierarchical Dirichlet Process
models.logentropy_model – LogEntropy model
models.lsi_dispatcher – Dispatcher for distributed LSI
models.lsi_worker – Worker for distributed LSI
models.lda_dispatcher – Dispatcher for distributed LDA
models.lda_worker – Worker for distributed LDA
models.word2vec – Deep learning with word2vec
models.doc2vec – Deep learning with paragraph2vec
models.dtmmodel – Dynamic Topic Models (DTM) and Dynamic Influence Models (DIM)
models.phrases – Phrase (collocation) detection
similarities.docsim – Document similarity queries
How It Works
simserver – Document similarity server
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

我们可以看到：

- 基本的语料处理工具

- LSI

- LDA

- HDP

- DTM

- DIM

- TF-IDF

- word2vec、paragraph2vec

以后用上其他模型的时候再介绍，今天我们来体验：

word2vec

#encoding=utf-8
from gensim.models import word2vec
sentences=word2vec.Text8Corpus(u'分词后的爽肤水评论.txt')
model=word2vec.Word2Vec(sentences, size=50)
y2=model.similarity(u"好", u"还行")
print(y2)
for i in model.most_similar(u"滋润"):
 print i[0],i[1]
1
2
3
4
5
6
7
8
9
10
11

txt文件是已经分好词的5W条评论，训练模型只需一句话：

model=word2vec.Word2Vec(sentences,min_count=5,size=50)
1

第一个参数是训练语料，第二个参数是小于该数的单词会被剔除，默认值为5,

第三个参数是神经网络的隐藏层单元数，默认为100

model.similarity(u"好", u"还行")#计算两个词之间的余弦距离
model.most_similar(u"滋润")#计算余弦距离最接近“滋润”的10个词
1
2
3

运行结果：

0.642981583608
保湿 0.995047152042
温和 0.985100984573
高 0.978088200092
舒服 0.969187200069
补水 0.967649161816
清爽 0.960570812225
水水 0.958645284176
一般 0.928643763065
一款 0.911774456501
真的 0.90943980217
1
2
3
4
5
6
7
8
9
10
11
12

效果不错吧，虽然只有5W条评论的语料

当然还可以存储和加载咱们辛辛苦苦训练好的模型：

model.save('/model/word2vec_model')
new_model=gensim.models.Word2Vec.load('/model/word2vec_model')
1
2
3

也可以获取每个词的词向量

model['computer'] 
1

训练词向量时传入的两个参数也对训练效果有很大影响，需要根据语料来决定参数的选择，好的词向量对NLP的分类、聚类、相似度判别等任务有重要意义哦！

基于python的gensim word2vec训练词向量

gensim word2vec models python

cenylon

0 关注 0 粉丝 0 动态

关注关注

基于 Gensim 的 Word2Vec 实践

Word2Vec基于 Gensim 的 Word2Vec 实践，从属于笔者的程序猿的数据科学与机器学习实战手册，代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建，Scikit-Learn 备忘录。模型创建Gensim

mori 2019-06-21

gensim实现python对word2vec的训练和计算

词向量原始的代码是C写的，python也有对应的版本，被集成在一个非常牛逼的框架gensim中。我在自己的开源语义网络项目graph-mind中使用了这些功能，大家可以直接用我在上面做的进一步的封装傻瓜式地完成一些操作，下面分享调用方法和一些code上的心

manongpengzai 2018-09-05

NLP入门（二）探究TF-IDF的原理

TF-IDF介绍TF-IDF是NLP中一种常用的统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，通常用于提取文本的特征，即关键词。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

yaohaishen 2019-06-28

2018年Python使用率最多的几个库，你都知道么？

NumPy是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化，可以提升性能，从而加快执行速度。Seaborn 基于 Matplotlib，并高度

sxyhetao 2018-10-18

有了这5个工具可以满足你对NLP的“一切”需求！

大数据分析是商业智能的重要工具，而自然语言处理工具可帮助处理来自不同来源的非结构化数据流。由于Python编程语言是最适合大数据处理的事实之一，因此许多工具和库都是为它而生。这就是为什么有很多NLP库的原因，还有更多的是定期的服务。由于这个原因，“Pyth

龙心尘 2018-01-30

使用NLTK和Gensim在Python中进行主题建模

在这篇文章中，我们将学习如何识别文档中讨论的主题，称为主题建模。话题建模是一种无监督的机器学习方法，可帮助我们发现论文中隐藏的语义结构，使我们能够在语料库中学习论文的主题表示。该模型可以应用于文档上的任何类型的标签，例如网站上帖子上的标签。[‘cognit

zhinanpolang 2018-04-03

Windows下anaconda安装第三方包的方法小结(tensorflow、gensim为例)

anaconda 集成了很多科学计算中所需要的包，如numpy，scipy等等，具体查看anaconda中已经预先安装配置好的包有哪些，可以通过cmd命令，输入conda list 查看，如下图所示：。但是，因为实际需求，我们会需要导入列表中没有的第三方包

思考zhe 2018-04-05

Python使用gensim计算文档相似性

corpus=[dictionary.doc2bow for text in Corp] #将文档转化为词袋模型。tfidf=models.TfidfModel#使用tf-idf模型得出文档的tf-idf模型。vec_bow=dictionary.doc2

uglygirl 2016-04-10

安科网

基于python的gensim word2vec训练词向量

cenylon

准备工作

gensim介绍

以后用上其他模型的时候再介绍，今天我们来体验：

word2vec

训练词向量时传入的两个参数也对训练效果有很大影响，需要根据语料来决定参数的选择，好的词向量对NLP的分类、聚类、相似度判别等任务有重要意义哦！

cenylon

相关推荐

基于 Gensim 的 Word2Vec 实践

gensim实现python对word2vec的训练和计算

NLP入门（二）探究TF-IDF的原理

2018年Python使用率最多的几个库，你都知道么？

有了这5个工具可以满足你对NLP的“一切”需求！

使用NLTK和Gensim在Python中进行主题建模

Windows下anaconda安装第三方包的方法小结(tensorflow、gensim为例)

Python使用gensim计算文档相似性

cenylon