排序模型
2013-07-13 20:16
92 查看
传统的排序模型主要分为相关性和重要性两大类
相关性:Bool model,VSM,Language model
重要性:PageRank、TrustRank
1.Bool model
Query为逻辑表达式,即“与/或/非”,相似性通过布尔代数运算判定,只有相关于不相关
2.VSM
是一种表示文档的代数模型。文档映射为t维特征向量,每维特征的权重主要有TF-IDF等多个变种。
相似度计算主要是余弦相似度
3.概率检索模型
BM25将Query分解成多个语素,综合考虑每个语素的二元独立模型(与IDF等价)、语素在文档中的权值、语素在Query中的权值,求和。
4.Language model
为每个文档建立不同的语言模型,判断由文档生成Query的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。
数据稀疏问题:很多查询词在文档中没有出现,导致概率为0,检索失效
解决:用背景概率做数据平滑,某个单次的背景概率就是这个单次出现的次数除以文档集合的单次总数
综上,文档生成查询概率的计算公式为每个查询词的文档语言模型+平滑的文档集合语言模型,求积
改进:HMM、相关模型、翻译模型
5.PageRank
相关性:Bool model,VSM,Language model
重要性:PageRank、TrustRank
1.Bool model
Query为逻辑表达式,即“与/或/非”,相似性通过布尔代数运算判定,只有相关于不相关
2.VSM
是一种表示文档的代数模型。文档映射为t维特征向量,每维特征的权重主要有TF-IDF等多个变种。
相似度计算主要是余弦相似度
3.概率检索模型
BM25将Query分解成多个语素,综合考虑每个语素的二元独立模型(与IDF等价)、语素在文档中的权值、语素在Query中的权值,求和。
4.Language model
为每个文档建立不同的语言模型,判断由文档生成Query的可能性有多大,然后按照这种生成概率由高到低排序,作为搜索结果。
数据稀疏问题:很多查询词在文档中没有出现,导致概率为0,检索失效
解决:用背景概率做数据平滑,某个单次的背景概率就是这个单次出现的次数除以文档集合的单次总数
综上,文档生成查询概率的计算公式为每个查询词的文档语言模型+平滑的文档集合语言模型,求积
改进:HMM、相关模型、翻译模型
5.PageRank
相关文章推荐
- 美团推荐算法实践:机器学习重排序模型成亮点
- iOS开发·必会的算法操作:字符串数组排序+模型对象数组排序
- 美团推荐算法实践:机器学习重排序模型成亮点
- 美团推荐算法实践:机器学习重排序模型成亮点
- iOS开发之按照模型某一属性排序
- 风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
- JVM并发机制的探讨——内存模型、内存可见性和指令重排序
- 机器学习排序LTR入门——线性模型
- 浅谈网页搜索排序中的投票模型
- JVM并发机制的探讨——内存模型、内存可见性和指令重排序
- 信息检索与排序模型之布尔模型
- 文档排序--相似度模型--VSM
- 笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
- 信息检索与排序模型之布尔模型
- Hulu机器学习问题与解答系列 | 二十一:分类、排序、回归模型的评估
- 深入理解JVM(二)——内存模型、可见性、指令重排序
- JVM并发机制的探讨——内存模型、内存可见性和指令重排序 http://my.oschina.net/chihz/blog/58035
- 深入理解JVM(二)——内存模型、可见性、指令重排序
- 轻松学JVM(二)——内存模型、可见性、指令重排序
- 美团推荐算法实践:机器学习重排序模型成亮点