您的位置：首页 > 其它

读论文《Distributed Representations of Words and Phrases and their Compositionality》

2017-08-24 00:35 615 查看

读论文《Distributed Representations of Words and Phrases and their Compositionality》

introduce

这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充，介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling，获得更快的训练效果。

本文还提出了对高频词进行二次抽样的方法，以及衡量短语的方法，学习短语的表示。

method

Skip-gram的目标是最大化下面的概率分布

其中， c是训练上下文的大小。比如c是2，就预测上文2个词和下文2个词。

p(wt+j|wt)是表示wt条件下出现wt+j的概率。

如果采用正常的softmax，p(wt+j|wt)这么算：

其中W是词表的大小，而一般大语料的词表都是非常大的，所以对全部输出使用softmax的训练难度很大，所以Skip-gram采用了用哈夫曼树结构构建的Hierarchical Softmax，最终的概率密度函数如下：

本文中还介绍了Negative Sampling的方法，它以一个正样本和几个随机采取的负样本作为优化目标

其中文章对高频词进行二次抽样的函数如下

作者以构造的得分函数评价连续的词是否为短语的可能性，当大于阖值时就作为短语。最后以短语中各单词的词嵌入之和作为该短语的词嵌入（文中没找到，但表格5中是用加的）

my view

1.负采样是否适用于其他模型

2.怎么表示短语的词嵌入，各单词之和？那句子，语段呢？

本文地址：http://blog.csdn.net/qq_31456593/article/details/77515156

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部