大规模超文本网络搜索引擎解析 [ The Anatomy of a Large-Scale Hypertextual Web Search Engine ]
2013-10-04 16:39
337 查看
Sergey Brin and Lawrence Page
{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305
摘要
1. 引言
1.1 网页搜索引擎的崛起:1994 - 2000
1.2 谷歌:与网络共成长
1.3 设计目标
1.3.1 提升搜索质量
1.3.2 学术搜索引擎的研究
2. 系统特色
2.1 PageRank: 让网络变得有序
2.1.1 PageRank 计算的描述
2.1.2 直观的理据
2.2 锚文本
2.3 其它特色
3. 相关工作
3.1 信息检索
3.2 网络与传统文本集合的区别
4. 系统剖析
4.1 谷歌架构概览
4.2 主要的数据结构
4.2.1 大文件 (BigFiles)
4.2.2 资源库 (Repository)
4.2.3 文件索引
4.2.4 词汇索引
4.2.5 命中列表
4.2.6 正向索引
4.2.7 倒排索引
4.3 网页爬虫
4.4 网页索引
4.4.1 解析
4.4.2 分桶建立文件索引
4.4.3 排序
4.5 搜索
4.5.1 排名系统
4.5.2 反馈
5. 结果与性能
5.1 存储需求
5.2 系统性能
5.3 搜索性能
6. 结论
6.1 将来的工作
6.2 高质量搜索
6.3 可扩展的架构
6.4 一个研究工作
相关文章推荐
- TCP/IP传输层
- 查杀占用网络资源的升级版ipz.exe与ipz2.exe病毒
- TCP为什么要三次握手,不是两次四次?
- TCP为什么要三次握手,不是两次四次?
- Asp.net异步IHttpAsyncHandler示例
- 网络子系统33_网桥设备的配置更新
- 网络子系统32_网桥设备的开启与关闭
- TCP慢启动、拥塞避免、快速重传、快速恢复
- win7 virtualbox centos 网络配置
- TCP/IP协议概括一点点
- RHCE学习<4>SSH、TCP_Wrappers、VNC和磁盘管理
- 为你详细解读HTTP请求头的具体含意
- http头域
- http基础2
- 网络规划综合考虑
- http基础
- PB程序中如何测试网络连接是否中断?(实现Ping命令)
- 闲聊计算机IP网络
- 闲聊计算机IP网络
- VM下ubuntu的网络搭建与secureCRT和cuteFTP的使用经验与误区