您的位置:首页 > 其它

读论文《Distributed Representations of Words and Phrases and their Compositionality》

2017-08-24 00:35 615 查看

读论文《Distributed Representations of Words and Phrases and their Compositionality》

introduce

这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。

本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。

method

Skip-gram的目标是最大化下面的概率分布



其中, c是训练上下文的大小。比如c是2,就预测上文2个词和下文2个词。

p(wt+j|wt)是表示wt条件下出现wt+j的概率。

如果采用正常的softmax,p(wt+j|wt)这么算:



其中W是词表的大小,而一般大语料的词表都是非常大的,所以对全部输出使用softmax的训练难度很大,所以Skip-gram采用了用哈夫曼树结构构建的Hierarchical Softmax,最终的概率密度函数如下:



本文中还介绍了Negative Sampling的方法,它以一个正样本和几个随机采取的负样本作为优化目标



其中文章对高频词进行二次抽样的函数如下



作者以构造的得分函数评价连续的词是否为短语的可能性,当大于阖值时就作为短语。最后以短语中各单词的词嵌入之和作为该短语的词嵌入(文中没找到,但表格5中是用加的)



my view

1.负采样是否适用于其他模型

2.怎么表示短语的词嵌入,各单词之和?那句子,语段呢?

本文地址:http://blog.csdn.net/qq_31456593/article/details/77515156
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐