linux shell循环操作 + word2vec词向量训练/聚类的参数解释
2017-08-30 09:38
411 查看
比如我要执行:
./word2vec -train CGJJ_split.txt -output classes_X.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes X
一个操作。
现在希望将上述命令的X作为变量,循环执行
那么将X改为i变量,执行for循环,同时将原命令里的i用$((i))表示 :
for ((i=350; i<=1000; i=i+50)) do ./word2vec -train CGJJ_split.txt -output classes_((i)).txt−cbow0−size200−window5−negative0−hs1−sample1e−3−threads12−classes((i)); done
即可!
其中,参数解释如下:
-train 训练数据
-output 结果输入文件,即每个词的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型
除了上面所讲的参数,还有:
-alpha 表示 学习速率
-min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
-classes 表示词聚类簇的个数,从相关源码中可以得出该聚类是采用k-means
按类别排序:
sort classes.txt -k 2 -n > classes.sorted.txt
./word2vec -train CGJJ_split.txt -output classes_X.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes X
一个操作。
现在希望将上述命令的X作为变量,循环执行
那么将X改为i变量,执行for循环,同时将原命令里的i用$((i))表示 :
for ((i=350; i<=1000; i=i+50)) do ./word2vec -train CGJJ_split.txt -output classes_((i)).txt−cbow0−size200−window5−negative0−hs1−sample1e−3−threads12−classes((i)); done
即可!
其中,参数解释如下:
-train 训练数据
-output 结果输入文件,即每个词的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型
除了上面所讲的参数,还有:
-alpha 表示 学习速率
-min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
-classes 表示词聚类簇的个数,从相关源码中可以得出该聚类是采用k-means
按类别排序:
sort classes.txt -k 2 -n > classes.sorted.txt
相关文章推荐
- 用Word2vec训练中文wiki,构造词向量并做词聚类
- word2vec的示例以及参数解释
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- word2vec词向量训练及中文文本相似度计算
- [zt]word2vec词向量训练及中文文本相似度计算
- 对word2vec训练的model的结果操作笔记
- [自然语言处理] 预训练词向量百度云下载 [Word2Vec, Glove, FastText]
- 利用 word2vec 训练的字向量进行中文分词
- 利用Word2Vec训练词向量过程
- 用word2vec训练文本摘要的词向量模型
- python下word2vec词向量训练与加载方法
- word2vec的使用参数解释和应用场景
- word2vec训练参数说明
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- windows下用Anaconda3做基于维基百科中文word2vec训练
- word2vec中文类似词计算和聚类的使用说明及c语言源代码