您的位置:首页 > 其它

读论文《Convolutional Neural Networks for Sentence Classification》

2017-08-29 00:28 656 查看

读论文《Convolutional Neural Networks for Sentence Classification》

标签(空格分隔): 论文

文章地址:http://blog.csdn.net/qq_31456593/article/details/77659515

introduce

这篇论文把卷积神经网络用到了句子分类中,算是把卷积神经网络的应用范围扩大到了nlp领域。

作者将句子中的词用word embedding代表,从上到下排列构成了一个矩阵。这个矩阵就相对于句子的语义特征图。然后就可以对这个语义特征图进行卷积。与图像卷积不同,这里的卷积是一个k*h的核,k为word embedding的维度,h是一次卷积覆盖的单词数。然后通过max-overtime pooling 留下主要特征,同时解决了序列变长的问题。

作者同时进行了4种类型的实验:

•CNN-rand:基线模型,其中所有单词在训练期间被随机初始化,然后被修改。

•CNN-static:具有来自word2vec的预训练词嵌入的模型。所有单词-包括随机初始化的未知数-保持静态,只有模型的其他参数被学习。

•CNN-non-static:与上述相同,但预训练的向量对每个任务进行微调。

•CNN-multichannel:具有两组词嵌入的模型。每组向量被视为“通道”,对于这两个通道而言,渐变只能通过其中一个通道进行反向传播。因此,该模型能够微调一组向量,同时保持其他静态。两个通道都用word2vec初始化。

method

卷积网络的模型如下图所示:



其中一个句子中的词语以词嵌入的形式从上到下构成一个句意图,然后用k*h的核进行卷积运算(k为word embedding的维度,h是一次卷积覆盖的单词数)。然后通过max-overtime pooling 留下主要特征,最后将不同特征图的主要特征拼接起来,经过一个全连接层,并用softmax进行分类。

模型中使用了dropout和L2正则化。

最后4组模型和其它方法的比较结果如下:



my view

1、我觉得把句子中的词嵌入组成句义特征图的概念很好,这样可以把原来对图片进行处理的方法,应用到nlp来。

2、卷积的局部视野类似于n-gram,或许句子级语义信息用卷积神经网络来获取并不比循环神经网络差。

3、max-overtime pooling 虽然解决了句子变长问题,但是不是失掉了很多特征。

4、是否可以增加深度。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐