python 下的 word2vec 学习笔记
2017-08-27 16:16
447 查看
1.ubuntu下安装gensim
refer to: ubuntu 14.04 安装gensim为了保证安装成功,首先升级一下easy_install工具。
sudo easy_install -U setuptools1
1
之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。
sudo easy_install --upgrade gensim1
2
1
2
结果在import gensim 中还出现了点小错误,缺少了平pattern模块,所以直接pip 安装。
sudo pip install pattern1
1
2.训练生成模型
安装完成之后,就来训练模型。 refer:中英文维基百科语料上的word2vec实验
模型的训练如下:
# ################# 例1 ######################### # import modules & set up logging import gensim, logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = [['first', 'sentence'], ['second', 'sentence']] # train word2vec on the two sentences model = gensim.models.Word2Vec(sentences, min_count=1)1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
在本次的实验中,我们的数据是保存在txt文件中的。每一行对应一个句子(已经分词,以空格隔开),我们可以直接用LineSentence把txt文件转为所需要的格式。
# ################# 例2 ######################### from gensim import Word2Vec from gensim.Word2Vec import LineSentence # inp为输入语料 inp = 'wiki.zh.text.jian.seg.txt' # outp1 为输出模型 outp1 = 'wiki.zh.text.model' # outp2为原始c版本word2vec的vector格式的模型 outp2 = 'wiki.zh.text.vector' model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save(outp1) model.save_word2vec_format(outp2, binary=False)1
2
3
4
5
6
7
8
9
10
11
12
13
1
2
3
4
5
6
7
8
9
10
11
12
13
关于Word2Vec(…) 模型的参数说明(refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明):
LineSentence(inp):应该是把word2vec训练模型的磁盘存储文件(model在内存中总是不踏实)转换成所需要的格式;对应的格式是参考上面的例1。
size:是每个词的向量维度;
window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词;
min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃;
workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。
说明一下输入语料,输入的是文本文件的格式,其中没一行表示一个文章,而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多,我一般用的是结巴分词(不知道大家以后没有好的分词工具推荐)。一般来说,训练集越大,结果的泛化性越好,对于专业领域的话,最好能使用专业领域的语料来进行训练。
3.导入模型
# -*- coding: utf-8 -*- # <nbformat>3.0</nbformat> import gensim # 导入模型 model = gensim.models.Word2Vec.load("wiki.zh.text.model")1
2
3
4
5
6
1
2
3
4
5
6
4. 模型使用
可以参照官网上的指导迅速了解model的各种功能方法。
4.0 获取词向量
print model[u'汽车'] type(model[u'汽车'])1
2
1
2
# 结果 [ 3.74845356e-01 1.86477005e+00 1.28353190e+00 8.04618478e-01 ... ] numpy.ndarray1
2
3
1
2
3
4.1 计算一个词的最近似的词,倒排序
result = model.most_similar(u'足球') for each in result: print each[0] , each[1]1
2
3
1
2
3
国际足球 0.556692957878 足球运动 0.530436098576 篮球 0.518306851387 国家足球队 0.516140639782 足球队 0.513238489628 足球联赛 0.500901579857 football 0.500162124634 体育 0.499264538288 足球比赛 0.488131582737 冰球 0.487250924111
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
4.2 计算两词之间的余弦相似度
word2vec一个很大的亮点:支持词语的加减运算。(实际中可能只有少数例子比较符合)>>> model.most_similar(positive=['woman', 'king'], negative=['man']) [('queen', 0.50882536), ...]1
2
1
2
sim1 = model.similarity(u'勇敢', u'战斗') sim2 = model.similarity(u'勇敢', u'胆小') sim3 = model.similarity(u'高兴', u'开心') sim4 = model.similarity(u'伤心', u'开心') print sim1 print sim2 print sim3 print sim41
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
0.254622852224 0.38974887559 0.423695453969 0.3762445884561
2
3
4
1
2
3
4
4.3 计算两个集合之间的余弦似度
当出现某个词语不在这个训练集合中的时候,会报错!!!。list1 = [u'今天', u'我', u'很', u'开心'] list2 = [u'空气',u'清新', u'善良', u'开心'] list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新'] list_sim1 = model.n_similarity(list1, list2) print list_sim1 list_sim2 = model.n_similarity(list1, list3) print list_sim21
2
3
4
5
6
7
1
2
3
4
5
6
7
0.541874230659 0.130563201541
2
1
2
4.4 选出集合中不同类的词语
list = [u'纽约', u'北京', u'上海', u'西安'] print model.doesnt_match(list) list = [u'纽约', u'北京', u'上海', u'西瓜'] print model.doesnt_match(list)1
2
3
4
1
2
3
4
纽约 西瓜1
2
1
2
相关文章推荐
- python 下的 word2vec 学习笔记
- 深度学习笔记之自然语言处理(word2vec)
- Word2Vec学习笔记(二)
- windows下 word2vec学习笔记
- Python版的Word2Vec -- gensim 学习手札 中文词语相似性度量 V1.1
- python 环境下gensim中的word2vec的使用笔记
- 深度学习(四十二)word2vec词向量学习笔记
- tensorflow学习笔记之word2vec
- Principle of Computing (Python)学习笔记(6) Recursion + Word Wrangler
- word2vec学习笔记[转]
- 深度学习(四十二)word2vec词向量学习笔记
- Python版的Word2Vec -- gensim 学习手札 中文词语相似性度量 V1.1
- Python学习笔记(29)-Python创建并写入word文档
- word2vec学习笔记[转]
- 学习笔记TF034:实现Word2Vec
- word2vec学习笔记
- 初学Python的学习笔记6----高阶函数sorted/返回函数/匿名函数/装饰器
- python email模块学习笔记
- 阿齐兹的Python学习笔记——移动应用开发