web搜索学习笔记之概率模型
2011-10-17 22:07
218 查看
1. 为什么概率模型?
直观上,一个IR系统不可能给出一个确定的答复:一个文档是否满足一个查询? 就算是人类,也不能给出这样确定的回答。因此,需要进行不确定性地判断。而概率理论正是进行不确定性推理的理论。
概率方法既是最古老的信息获取方法之一,也是当前最热门的信息获取方法之一。
2. 跟别的模型的比较
2.1 布尔模型
布尔模型不支持对文档集合的排序。
2.2 向量空间模型
向量空间模型基于文档与查询的相似度,进行排序。而相似度并不是相关度。最相似的文档可能高度相关,也可能完全无关(?)。而概率模型是对相关程度的更清晰的定义。
3. 需要使用的概率论基础
4. 基于概率的文档排序原理
4.1 基于概率的相关程度公式及其推导过程
公式(4)表示文档x与查询q相关的概率,其中x和q都是建立在term上的向量。
公式(5)表示文档x与查询q不相关的概率。
公式(6)组合公式(4)和公式(5),用来计算文档x与查询q的相关程度。
公式(7)是公式(6)中随文档x变化的部分,公式(6)中的其余部分,对于给定一个查询q来说,都是常量。
公式(8)基于公式(7),给出最终用来计算文档x与查询q相关程度的公式。
4.2 计算公式(8)
其中,
直观上,一个IR系统不可能给出一个确定的答复:一个文档是否满足一个查询? 就算是人类,也不能给出这样确定的回答。因此,需要进行不确定性地判断。而概率理论正是进行不确定性推理的理论。
概率方法既是最古老的信息获取方法之一,也是当前最热门的信息获取方法之一。
2. 跟别的模型的比较
2.1 布尔模型
布尔模型不支持对文档集合的排序。
2.2 向量空间模型
向量空间模型基于文档与查询的相似度,进行排序。而相似度并不是相关度。最相似的文档可能高度相关,也可能完全无关(?)。而概率模型是对相关程度的更清晰的定义。
3. 需要使用的概率论基础
4. 基于概率的文档排序原理
4.1 基于概率的相关程度公式及其推导过程
公式(4)表示文档x与查询q相关的概率,其中x和q都是建立在term上的向量。
公式(5)表示文档x与查询q不相关的概率。
公式(6)组合公式(4)和公式(5),用来计算文档x与查询q的相关程度。
公式(7)是公式(6)中随文档x变化的部分,公式(6)中的其余部分,对于给定一个查询q来说,都是常量。
公式(8)基于公式(7),给出最终用来计算文档x与查询q相关程度的公式。
4.2 计算公式(8)
其中,
相关文章推荐
- 概率图形模型(PGM)学习笔记(四)-贝叶斯网络-伯努利贝叶斯-贝叶斯多项式
- 【Web前端学习笔记】CSS3_常用属性,选择器,盒子模型
- 【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt
- Microsoft .NET 的企业解决方案模式 > Web 表示模式 > 模型-视图-控制器(学习笔记四)
- 概率图形模型(PGM)学习笔记(一)动机和概述
- CSS模型框学习笔记
- 【学习笔记】Python基础-Web 开发初识
- Web入侵安全测试与对策学习笔记(一)——总览
- JavaWeb学习笔记-mybatis-07-dao开发使用(原始dao方法)
- Asp.net 2.0 - Web Parts学习笔记
- .net调用java webservice基于JBOSS服务器 学习笔记(一)
- PHP学习笔记-PHP与Web页面的交互2
- web 学习笔记14-JDBC
- Java学习笔记-《Java程序员面试宝典》-第5章Java Web-5.3框架(5.3.9-5.3.10)
- 关于web学习的一些笔记
- web开发-Windows系统下使用git for Windows软件-学习笔记六
- 遗传算法与直接搜索工具箱学习笔记 二-----编写自己的目标函数
- WPF and Silverlight 学习笔记(十):WPF控件模型
- 学习笔记_java web——commons-fileupload和CKEditor
- FTP搜索工具学习笔记——属性页控件类