《HTTP权威指南》阅读笔记(九)
2015-08-26 22:03
267 查看
1、 web机器人:能够在无需人类干预的情况下自动进行一系列web事务处理的软件程序。它们可以从一个web站点逛到另一个web站点,获取内容,跟踪超链,并对它们找到的数据进行处理。eg:“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等。
2、爬虫开始访问的URL初始集合被称作根集,使它能够到达大部分感兴趣的web页面。爬虫在web上移动时,会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析,将相对URL转换为绝对形式,并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现,防止死循环。
环路出现的可能原因:别名、文件系统连接环路、动态虚拟web空间。
避免环路的措施:
3、拒绝机器人访问:如果一个站点有robots.txt文件,那么在访问这个站点上的任意URL之前,机器人都必须获取它并对其进行处理,判断是否可以进行访问。
2、爬虫开始访问的URL初始集合被称作根集,使它能够到达大部分感兴趣的web页面。爬虫在web上移动时,会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析,将相对URL转换为绝对形式,并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现,防止死循环。
环路出现的可能原因:别名、文件系统连接环路、动态虚拟web空间。
避免环路的措施:
3、拒绝机器人访问:如果一个站点有robots.txt文件,那么在访问这个站点上的任意URL之前,机器人都必须获取它并对其进行处理,判断是否可以进行访问。
相关文章推荐
- 深度学习记录第一天--神经网络
- 社交网络中基于位置的影响力最大化 CIKM2015 译文
- 一个简单的HTTP代理服务器c语言实现
- http与https的区别
- ACM网络流模板 最大流ISAP URAL1774
- 9.3tcp多进程并发模板和多线程并发模板
- 【工业串口和网络软件通讯平台(SuperIO)教程】八.SuperIO通讯机制与设备驱动对接的说明
- 【工业串口和网络软件通讯平台(SuperIO)教程】八.SuperIO通讯机制与设备驱动对接的说明
- 网络篇 - 03.NSURLConnection应用场景
- 网络篇 - 05.网络数据解析(XML)
- 网络篇 - 04.网络数据解析(JSON)
- 网络篇 - 02.NSURLConnection基本使用
- 网络篇 - 01.网络编程概述
- 网络方面的面试题
- TCP/IP详解 卷I:协议 の校验和
- TCP/IP详解 卷I:协议 のUDP 用户数据包协议
- 计算机网络面试题2
- 计算机网络面试题1
- 常见HTTP错误代码大全
- http头需知