[NLP论文阅读]Siamese CBOW: OptimizingWord Embeddings for Sentence Representations
2017-06-22 22:30
651 查看
论文原文: Siamese CBOW: OptimizingWord Embeddings for Sentence Representations
模型会初始化一个词向量矩阵W,随着训练的进行会对W进行更新。
输入层:
以单词为单位输入。
对于语录库中的每一个si,其前一句si−1以及后一句si+1被作为正例,然后通过负采样产生n个负例。这些输入是带有标签的,设S+表示所有的正例集合,S−表示所有的负例集合,那么对于句子si和sj其概率为:
映射层:
模型将句子映射成句子向量的方法就是通过average,将句子中的前k个词的词向量进行加和平均。
这样的得到了句向量averagei(中心句),averagei−1、averagei+1以及averageneg 1到averageneg n
cosine layer:
直接计算向量之间的cos相似度作为两句句子的相似度
prediction layer:
也就是输出层,将上一层得到的相似度经过softmax归一化后得到预测的值。
损失函数采用了交叉熵。
整个实验过程中就对词向量矩阵W进行更新。
Well it used to take one month on a K40 GPU to get a reasonable model (and the longer the better).
于是我默默的Ctrl + c,关闭了电脑。
长叹一声,欢迎讨论~
2017年6月22日夜。
引言
前段时间看了一篇Siamese LSTM(孪生LSTM)用于生产句子表示的论文,这次又看到了这一篇文章,感觉也很有意思,这篇文章是借鉴了CBOW模型的想法提出了Siamese CBOW模型,并且取得了不错的效果。主要内容
作者在文中提到,现在有很多生成句子表示的方法都是将现有的词向量进行average,那么我们可以在训练的时候就将average融入其中,尝试通过这样的方法来得到用于表示句子的词向量。数据
Toronto Book Corpus:这是一个很庞大的语料库,包括了74,004,228句已经预处理好的句子,这些句子中含有1,057,070,918个tokens(在实验中,将词频限制在5以上,共有315,643个tokens),它们的来源是7,087本不同的书籍。这些句子前后连贯,就是完整的小说文章,仅在文章和文章之间会出现不连贯(可以忽略不计,毕竟大多数句子意思上还是连贯的)。模型
模型会初始化一个词向量矩阵W,随着训练的进行会对W进行更新。
输入层:
以单词为单位输入。
对于语录库中的每一个si,其前一句si−1以及后一句si+1被作为正例,然后通过负采样产生n个负例。这些输入是带有标签的,设S+表示所有的正例集合,S−表示所有的负例集合,那么对于句子si和sj其概率为:
映射层:
模型将句子映射成句子向量的方法就是通过average,将句子中的前k个词的词向量进行加和平均。
这样的得到了句向量averagei(中心句),averagei−1、averagei+1以及averageneg 1到averageneg n
cosine layer:
直接计算向量之间的cos相似度作为两句句子的相似度
prediction layer:
也就是输出层,将上一层得到的相似度经过softmax归一化后得到预测的值。
损失函数
损失函数采用了交叉熵。
整个实验过程中就对词向量矩阵W进行更新。
实验结果
总结
作者开源了源代码,其所使用的数据库需要写个agreement才能获得,在获得了这两样东西之后,我尝试复现他的实验,由于实验条件所限,没有GPU可以使用,当实验运行到第三天的时候,我按捺不住邮件咨询了原作者,得到如下回复:Well it used to take one month on a K40 GPU to get a reasonable model (and the longer the better).
于是我默默的Ctrl + c,关闭了电脑。
长叹一声,欢迎讨论~
2017年6月22日夜。
相关文章推荐
- [NLP论文阅读]A simple but tough-to-beat baseline for sentence embedding
- [NLP论文阅读] Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext
- [NLP]论文笔记-A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS
- [NLP论文阅读] Supervised Learning of Universal Sentence Representations from NLI data
- [NLP论文阅读] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning
- [NLP论文阅读]Distributed Representations of Sentences and Documents
- [NLP论文阅读]Learned in Translation: Contextualized Word Vectors
- 【论文阅读】Advances in Pre-Training Distributed Word Representations
- 论文阅读笔记-Siamese instance search for tracking(转)
- [NLP论文阅读] A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING
- 论文阅读《Joint Learning of Single-image Cross-image Representations for Person Re-identification》
- 论文阅读笔记-Siamese instance search for tracking
- 论文阅读笔记-Siamese instance search for tracking
- [NLP论文阅读] The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models
- [NLP论文阅读] Word Embedding based on Fixed-Size Ordinally Forgetting Encoding
- 【论文阅读】Topical Word Embeddings
- 论文阅读:Joint Learning of Single-image and Cross-image Representations for Person Re-identification
- 【论文阅读笔记】Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net
- CVPR2016之A Key Volume Mining Deep Framework for Action Recognition论文阅读(视频关键帧选取)
- 推荐系统论文阅读——Factorizing Personalized Markov Chains for Next-Basket Recommendation