天网(TSE)关键词与正文的匹配算法(重点在网页净化)
2009-02-19 22:15
253 查看
天网(TSE)关键词与正文的匹配算法(做法)
着重说网页净化部分、对应《搜索引擎-原理、技术与系统》的第七章第一节
1.根据重要信息标签(<b><I><strong>等)算出网页中各内容块的权重。
2.根据内容块的权重以及关键词i在各块中出现的频率算出关键词i在笨页面中的权重wi
(上面2步在传统的文本处理领域常用TF*IDF方法,而不是上面这种方法。相比之下,天网的算法因为先利用网页的特点给网页内容快加权重,启动净化网页、降嘈的作用,是得到的权重更加真实,更适用于网页与关键词之间的匹配)
3.当用户输入关键组时,天网再使用向量空间模型,比较关键词(向量)与网页(向量)夹角偏差程度而得知两者的匹配情况
以上所写的只适合在你看完《搜索引擎-原理、技术与系统》一书第七章第一节后,在没有看懂的情况下帮你梳理思路,看上面的步骤比较难理解。毕竟天网的这个算法还是有很多先进之处。
any questiones, please communicate with me. rockycqu@gmail.com
着重说网页净化部分、对应《搜索引擎-原理、技术与系统》的第七章第一节
1.根据重要信息标签(<b><I><strong>等)算出网页中各内容块的权重。
2.根据内容块的权重以及关键词i在各块中出现的频率算出关键词i在笨页面中的权重wi
(上面2步在传统的文本处理领域常用TF*IDF方法,而不是上面这种方法。相比之下,天网的算法因为先利用网页的特点给网页内容快加权重,启动净化网页、降嘈的作用,是得到的权重更加真实,更适用于网页与关键词之间的匹配)
3.当用户输入关键组时,天网再使用向量空间模型,比较关键词(向量)与网页(向量)夹角偏差程度而得知两者的匹配情况
以上所写的只适合在你看完《搜索引擎-原理、技术与系统》一书第七章第一节后,在没有看懂的情况下帮你梳理思路,看上面的步骤比较难理解。毕竟天网的这个算法还是有很多先进之处。
any questiones, please communicate with me. rockycqu@gmail.com
相关文章推荐
- 网页正文提取算法介绍
- 基于行块分布函数的通用网页正文抽取算法初步认识
- [导入]蛙蛙推荐:基于标记窗的网页正文提取算法的一些细节问题
- 目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司 http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页正文提取 http://www.lie
- 网页内容正文提取算法收集
- C#实现网页正文提取算法
- 浅识网页正文提取算法
- C#实现网页正文提取算法ok
- 简单的网页关键词匹配工具
- php实现的网页正文提取算法
- 基于行块分布函数的网页正文抽取算法代码实现
- WebCollector 网页正文提取算法(ContentExtractor)
- 蛙蛙推荐:基于标记窗的网页正文提取算法的一些细节问题
- 网页正文及内容提取算法
- WebCollector 网页正文提取算法(ContentExtractor)
- POJ3041《Asteroids》方法:匈牙利算法(最小点覆盖数==最大二分匹配数)
- 二分图及其匹配——匈牙利算法
- 1、串(字符串)以及串的模式匹配算法
- [置顶] 解析KMP模式匹配算法
- 【二分匹配】【匈牙利算法即由增广路求最大匹配模板】