您的位置:首页 > 其它

利用点击数据学习Web搜索的深层语义(深度学习)模型【论文笔记】

2020-02-02 17:12 381 查看

原文:Learning deep structured semantic models for web search using clickthrough data

主要贡献:

  • 提出了基于深度学习结构的潜在语义模型,能够将给定查询和文档投影到一个公共的低维空间中,在该空间中两者的相关性很容易计算为空间中的距离;
  • 提出了一种单词散列(word hashing)的技术适应大规模Web搜索应用。
  • 在真实数据集的Web文档排名任务中,该模型明显优于其他潜在语义模型。

导言

  • 现代搜索引擎关键字匹配的问题:通过将搜索查询中的关键字与web文档中的关键字匹配来检索Web文档,由于在文档和查询中经常使用不同的词汇来表达相同的概念,所以关键字匹配可能是不准确的。
  • 无监督的潜在语义模型(如LSA、PLSA和LDA)的作用及问题:可在语义层面将查询映射到相关文档,无监督方式对目标函数训练,与检索任务评估指标松耦合,在Web搜索中性能不够好。
  • 利用查询和点击的文档进行语义建模,典型方法包括双语主题模型BLTMs和线性判别投影模型DPMs,两者显著优于无监督潜在语义模型,但BLTM用于文档排序的评估指标是次优的,DPM由于训练涉及大规模矩阵乘法而不适应大词汇表。
  • 深度自编码器进行语义建模,通过深度学习提取查询和文档中嵌入的层次语义结构,未明显优于基于关键词匹配的模型,同时也面临大规模矩阵乘法的可扩展性问题。
  • 本方法从前面两种思路而来,主要包括内容:
    通过深度学习将查询和文档非线性映射到公共语义空间
    将查询和文档的相关度通过语义空间中的余弦相似度来计算
    通过词散列将查询或文档的高维向量投影到低维的基于字母n元组向量中

相关工作

  • 潜在语义模型,LSA通过文档项矩阵的奇异值分解(SVD)将文档(或查询)映射到低维概念向量D ̂=A^T D(A是投影矩阵),查询Q和文档D的相关性得分,可以用对应概念向量Q ̂和D ̂的余弦相似度来得到。
  • 深度学习模型,有使用深度自编码器来发现嵌入在查询和文档中的层次语义结构,首先通过RBM学习生成模型,将文档原始向量逐层映射到低维语义概念向量,然后对模型参数微调,中间层可用作文档排序的特征。该方法优于LSA,但不能超过基于关键词匹配的检索模型,而且不能计算成本高而无法适应大词汇表。

本方法架构及训练

架构

将原始文本特征映射到语义空间中的特征的典型DNN架构如图所示。

该架构主要包括以下层:

  • 输入层:高维的原始文档向量,比如,可以是没有规范化的词汇计数
  • 词散列层:
    为了减少原始向量因采用词袋模型带来的高维度
    采用字母n-gram来表示,比如单词good,如果按字母三元组可分解为#go、goo、ood、od#
  • 多层非线性映射:其实就是多层前馈神经网络,各层都使用tanh作为激活函数。
  • 输出层:生成的低维语义特征向量
  • 相关性计算:查询Q和文档D的语义相关分数,可通过分别基于该架构得到低维语义特征向量y_Q和y_D,然后计算余弦相似度得到。

    本文重点介绍词散列技术,该技术如前面词散列层描述,它带来的好处包括:
  • 虽然可能会带来碰撞,但是碰撞率可以忽略,如500K单词词汇表,碰撞率为0.0044%(22/500000)
  • 可以显著降维,英语单词数可以是无限的,单英语的字母n元祖数量通常是有限的。500K单词词汇表每个单词可以用30621表示,使用字母三元组,维度减少了16倍
  • 单词哈希可将同一单词的形态变化映射到字母n元组空间中靠近的点

学习过程

  • 首先通过softmax函数,根据查询与多个文档间的语义关联度计算各文档的后验概率

    其中,γ是softmax函数的平滑因子,Dall代表一个样本中所有文档,一般对于某个查询Q,有一个对应的点击文档D+以及四个随机选择的文档D-j (j=1,…,4),可以理解为一个样本包括查询、查询对应的文档以及四个不对应的文档。
  • 训练时,模型参数估计以最大化训练集上给定查询对应点击文档的后验概率,即最小化损失函数

实验

  • 评估数据集:从商业搜索引擎的一年查询日志文件中采样的16510个英语查询-
  • 所有模型都包含许多超参数,采用二折交叉验证。
  • 模型性能采用NDCG来衡量。
    用于对比的模型包括:
  • 关键词匹配方法:TF-IDF、BM25
  • 单词翻译模型:WTM
  • 潜在语义模型:无监督学习的LSA、PLSA、DAE,有监督学习的BLTM-PR、DPM
  • 本模型的多种实现形式:
    DNN为不使用词散列
    L-WH线性使用基于字母三元组的词散列,但不在输出层应用非线性激活函数(tanh)
    L-WH非线性与前一个区别是,要在输出层应用非线性激活函数
    L-WH-DNN使用三个隐藏层,包括字母三元组的词散列层和输出层
    结果表明:
  • 本方法深度结构语义模型表现最好
  • 点击数据的监督学习对优异的文档排名性能至关重要,对比DNN和DAE可以看出
  • 单词散列允许使用大词汇表建模,对比L-WH-DNN和DNN可以看出
  • 非线性层数量增加,性能会得到提高(对比L-WH-DNN和L-WH非线性);在都是单层浅层模型时,线性模型和非线性模型没有显著差异(对比L-WH线性和L-WH非线性)
  • 点赞 1
  • 收藏
  • 分享
  • 文章举报
常思大妹子 发布了11 篇原创文章 · 获赞 7 · 访问量 212 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: