Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
2016-12-22 15:49
1136 查看
打开原文
爬虫是什么:一段自动抓取互联网信息的程序
爬虫价值:互联网数据,为我所用
爬虫调度端:用来启动、执行、停止爬虫,或者监视爬虫中的运行情况
在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理
网页下载器:将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析
网页解析器:一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理器
这三部门就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来
这个简单爬虫架构是怎样运行的了?
看看运行流程
2.1.URL管理器:管理待抓取URL集合和已抓取URL集合。
其意义是:防止重复抓取、防止循环抓取(如两个网页相互引用而形成死循环)
需要有如下最基本的功能
2.2.URL管理器实现方式:
注意:set可以去除重复的URL。目前大部分公司选择缓存数据库存储抓取到
数据,因为快
爬虫是什么:一段自动抓取互联网信息的程序
爬虫价值:互联网数据,为我所用
一、简单爬虫架构
爬虫调度端:用来启动、执行、停止爬虫,或者监视爬虫中的运行情况
在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理
网页下载器:将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析
网页解析器:一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理器
这三部门就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来
这个简单爬虫架构是怎样运行的了?
看看运行流程
二、URL管理器和实现方法
2.1.URL管理器:管理待抓取URL集合和已抓取URL集合。其意义是:防止重复抓取、防止循环抓取(如两个网页相互引用而形成死循环)
需要有如下最基本的功能
2.2.URL管理器实现方式:
注意:set可以去除重复的URL。目前大部分公司选择缓存数据库存储抓取到
数据,因为快
相关文章推荐
- Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- Python 爬虫(1)基础知识和简单爬虫
- python3.4.4实现网页爬虫基础之网页下载器三种方法
- Python 用Redis简单实现分布式爬虫的方法
- iOS基础知识—最简单的get与set方法实现
- Python入门简单的静态网页爬虫2.0 (实现各模块的具体方法)
- python3简单爬虫实现代码
- python写简单爬虫的五种方法 (转)
- 分享php中四种webservice实现的简单架构方法及实例[转载]
- python实现简单爬虫功能
- python基础教程之简单入门说明(变量和控制语言使用方法)
- 采用python实现简单QQ单用户机器人的方法
- Python简单两步实现天气爬虫采集器
- Python基础知识2——join 和 split 的使用方法
- 实现一个简单的邮箱地址爬虫(python)
- 简单的性能自动化测试架构设计和实现(pylot)-python
- python基础学习-7(简单爬虫)
- 分享php中四种webservice实现的简单架构方法及实例(转)
- python基础学习-7(简单爬虫)