您的位置:首页 > 理论基础 > 计算机网络

《HTTP权威指南》阅读笔记(九)

2015-08-26 22:03 267 查看
1、 web机器人:能够在无需人类干预的情况下自动进行一系列web事务处理的软件程序。它们可以从一个web站点逛到另一个web站点,获取内容,跟踪超链,并对它们找到的数据进行处理。eg:“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等。

2、爬虫开始访问的URL初始集合被称作根集,使它能够到达大部分感兴趣的web页面。爬虫在web上移动时,会不停地对HTML 页面进行解析。它要对所解析的每个页面上的URL链接进行分析,将相对URL转换为绝对形式,并将这些链接添加到需要爬行的页面列表中去。爬行中药避免环路出现,防止死循环。

环路出现的可能原因:别名、文件系统连接环路、动态虚拟web空间。

避免环路的措施:



3、拒绝机器人访问:如果一个站点有robots.txt文件,那么在访问这个站点上的任意URL之前,机器人都必须获取它并对其进行处理,判断是否可以进行访问。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: