google怎么做(2.相似网页算法)
2006-04-03 10:39
260 查看
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
GOOGLE 的相似网页功能算法
中科院软件所 张俊林
time stamp: 2006年4月3日
我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?
GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:
(1) 用户选定某个页面A,希望查看相关网页;
(2) 首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说B和C页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;
(3) 第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};
(4) 第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.
(5) 第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出
看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?
GOOGLE 的相似网页功能算法
中科院软件所 张俊林
time stamp: 2006年4月3日
我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?
GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:
(1) 用户选定某个页面A,希望查看相关网页;
(2) 首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说B和C页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;
(3) 第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};
(4) 第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.
(5) 第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出
看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?
相关文章推荐
- 一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度
- 突破限制爬取网页数据 googlesholar为例【转】
- 用Google Font API来丰富网页字体
- 浏览网页乱码怎么办?
- 经典面试题(三)附答案 算法+数据结构+代码 微软Microsoft、谷歌Google、百度、腾讯
- 怎么查看网页加载的时间
- Google 网页排名背后的技术
- Android 屏幕动画原理 我说的 是坐标 这样 怎么实现 自己写算法 任何问题都没有了!
- Google网页字体在线服务启动使用
- 电脑网页打不开怎么回事但qq能用
- shell怎么读取网页内容
- Google算法题:132模式
- 把2456.7元转成贰千四百五十六元七角 这个算法怎么做?
- Google排名算法改变 不在以外部链为主
- Google算法题:H-最优账户结余
- Google算法题:M-Find the Duplicate Number
- Google确认5月排名算法更新 影响长尾流量
- 怎么理解spark机器学习中的推荐算法ALS?
- 如何使用 Google Cartographer SLAM 演算法來建地圖
- 在javascript中,我怎么得到下拉条顶端与当前可视的顶端高度的距离,不是和网页顶端的距离