您的位置:首页 > 编程语言 > Python开发

Python爬虫系列:开端

2017-03-21 19:49 288 查看

Python爬虫系列:开端

网络爬虫,顾名思义,是从网络上爬取特定信息的工具。

利用Python,我们能以很少的代码,写出一个能为我们所用的网络爬虫,并且通过这个爬虫,我们便能够在互联网上,自动爬取文本,图片,视频,文件等。

Python爬虫系列开端
概述
基本框架

需要的第三方库

开发环境

概述

基本框架

一个完整的爬虫,一般包含以下四部分或其中几个部分

主函数
spider


url管理器
url_manger


url下载器
url_downloader


网页解析器
html_parser


内容输出器
outputer


2-5的顺序也是爬虫工作时的逻辑顺序,从url管理器中获取url,用下载器下载网页内容,提交给解析器,解析后得到所需内容交给输出器,按一定格式输出。

需要的第三方库

BeautifulSoup (解析网页)

requests 或 urllib2 (获取网页)

urlparse (解析网页)

未安装的,可以使用
pip
工具在命令行安装,命令如下

pip install beautifulsoup4


pip install requests


pip install urllib2




开发环境

在这里,推荐JetBrain公司的Pycharm。

大家可以在其官网下载免费的社区版:https://www.jetbrains.com/pycharm/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 网络爬虫 爬虫