您的位置：首页 > 其它

利用点击数据学习Web搜索的深层语义(深度学习)模型【论文笔记】

2020-02-02 17:12 381 查看

原文：Learning deep structured semantic models for web search using clickthrough data

主要贡献：

导言

现代搜索引擎关键字匹配的问题：通过将搜索查询中的关键字与web文档中的关键字匹配来检索Web文档，由于在文档和查询中经常使用不同的词汇来表达相同的概念，所以关键字匹配可能是不准确的。
无监督的潜在语义模型（如LSA、PLSA和LDA）的作用及问题：可在语义层面将查询映射到相关文档，无监督方式对目标函数训练，与检索任务评估指标松耦合，在Web搜索中性能不够好。
利用查询和点击的文档进行语义建模，典型方法包括双语主题模型BLTMs和线性判别投影模型DPMs,两者显著优于无监督潜在语义模型，但BLTM用于文档排序的评估指标是次优的，DPM由于训练涉及大规模矩阵乘法而不适应大词汇表。
深度自编码器进行语义建模，通过深度学习提取查询和文档中嵌入的层次语义结构，未明显优于基于关键词匹配的模型，同时也面临大规模矩阵乘法的可扩展性问题。
本方法从前面两种思路而来，主要包括内容：
通过深度学习将查询和文档非线性映射到公共语义空间
将查询和文档的相关度通过语义空间中的余弦相似度来计算
通过词散列将查询或文档的高维向量投影到低维的基于字母n元组向量中

将原始文本特征映射到语义空间中的特征的典型DNN架构如图所示。

该架构主要包括以下层：

输入层：高维的原始文档向量，比如，可以是没有规范化的词汇计数
词散列层：
为了减少原始向量因采用词袋模型带来的高维度
采用字母n-gram来表示，比如单词good，如果按字母三元组可分解为#go、goo、ood、od#
多层非线性映射：其实就是多层前馈神经网络，各层都使用tanh作为激活函数。
输出层：生成的低维语义特征向量
相关性计算：查询Q和文档D的语义相关分数，可通过分别基于该架构得到低维语义特征向量y_Q和y_D，然后计算余弦相似度得到。

本文重点介绍词散列技术，该技术如前面词散列层描述，它带来的好处包括：
虽然可能会带来碰撞，但是碰撞率可以忽略，如500K单词词汇表，碰撞率为0.0044%（22/500000）
可以显著降维，英语单词数可以是无限的，单英语的字母n元祖数量通常是有限的。500K单词词汇表每个单词可以用30621表示，使用字母三元组，维度减少了16倍
单词哈希可将同一单词的形态变化映射到字母n元组空间中靠近的点

首先通过softmax函数，根据查询与多个文档间的语义关联度计算各文档的后验概率

其中，γ是softmax函数的平滑因子，Dall代表一个样本中所有文档，一般对于某个查询Q，有一个对应的点击文档D+以及四个随机选择的文档D-j (j=1,…,4),可以理解为一个样本包括查询、查询对应的文档以及四个不对应的文档。
训练时，模型参数估计以最大化训练集上给定查询对应点击文档的后验概率，即最小化损失函数

评估数据集：从商业搜索引擎的一年查询日志文件中采样的16510个英语查询-
所有模型都包含许多超参数，采用二折交叉验证。
模型性能采用NDCG来衡量。
用于对比的模型包括：
关键词匹配方法：TF-IDF、BM25
单词翻译模型：WTM
潜在语义模型：无监督学习的LSA、PLSA、DAE，有监督学习的BLTM-PR、DPM
本模型的多种实现形式：
DNN为不使用词散列
L-WH线性使用基于字母三元组的词散列，但不在输出层应用非线性激活函数（tanh）
L-WH非线性与前一个区别是，要在输出层应用非线性激活函数
L-WH-DNN使用三个隐藏层，包括字母三元组的词散列层和输出层
结果表明：
本方法深度结构语义模型表现最好
点击数据的监督学习对优异的文档排名性能至关重要，对比DNN和DAE可以看出
单词散列允许使用大词汇表建模，对比L-WH-DNN和DNN可以看出
非线性层数量增加，性能会得到提高（对比L-WH-DNN和L-WH非线性）；在都是单层浅层模型时，线性模型和非线性模型没有显著差异（对比L-WH线性和L-WH非线性）

常思大妹子发布了11 篇原创文章 · 获赞 7 · 访问量 212 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航