微软句向量工具包Sent2vec
2015-05-13 10:02
162 查看
工具介绍:
What is sent2vecsent2vec maps a pair of short text strings (e.g., sentences or query-answer pairs) to a pair of feature vectors in a continuous, low-dimensional space where the semantic similarity between the text strings is computed as the
cosine similarity between their vectors in that space.
sent2vec performs the mapping using the Deep Structured Semantic Model (DSSM) proposed in (Huang et al. 2013), or the DSSM with convolutional-pooling structure (CDSSM) proposed in (Shen et al. 2014; Gao et al. 2014). Please cite
the papers if you use sent2vec in published research.
工具包地址:
http://research.microsoft.com/en-us/downloads/731572aa-98e4-4c50-b99d-ae3f0c9562b9/default.aspxSlides:
http://emnlp2014.org/material/presentation-EMNLP2014002.pdfSlides中的Deep Semantic Similarity Model(DSSM)
看了上图,发现这个工具就是卷积神经网络,网络的输入是一个word harsing(word harsing后句子特征维度就不变了),然后做卷积和池化(关于什么是卷积和池化 参考:http://blog.csdn.net/silence1214/article/details/11809947)。
看到slides中word harsing步骤,问题就来了。如下图:
为了控制输入控件的维度,作者使用了letter-trigram representation。也就是word 变为一堆letter-trigram representation。感觉中文行不通啊,中文分完词语,粒度大部分都是两三个字。然后做这个letter-trigram representation,效果会好吗?
源自:http://weibo.com/1402400261/ChhIgASO1?type=comment#_rnd1431482545348
相关文章推荐
- 微软实用程序Sysinternals Suite工具包
- 词向量源码解析:(2.7)word2vec源码解析小结
- Atlas—微软的Ajax工具包(来自MSDN Scott Guthrie)
- 解析Atlas—微软的Ajax工具包
- Atlas—微软的Ajax工具包(来自MSDN Scott Guthrie)
- 【word2vec】Distributed Representation——词向量
- word2vec词向量模型裁剪简单demo
- Atlas—微软的Ajax工具包(转自it专家web服务)
- Sysinternals Suite--微软实用工具包
- 微软极品Sysinternals Suite工具包使用指南
- 微软完整开源了用于语音识别的深度学习工具包 CNTK
- 用gensim导入word2vec词向量bin文件,出现字符编码
- doc2vec 利用gensim 生成文档向量
- 深度学习(四十二)word2vec词向量学习笔记
- 解析Atlas—微软的Ajax工具包
- 微软极品Sysinternals Suite工具包使用指南
- 微软Win10商店开发方面更新:新增多种广告工具包功能
- 词向量源码解析:(2.4)word2vec源码解析之distance
- 【python gensim使用】word2vec词向量处理英文语料
- Atlas—微软的Ajax工具包(初学者必看)