您的位置：首页 > 编程语言 > Python开发

Python爬虫系列：开端

2017-03-21 19:49 288 查看

网络爬虫，顾名思义，是从网络上爬取特定信息的工具。

利用Python,我们能以很少的代码，写出一个能为我们所用的网络爬虫，并且通过这个爬虫，我们便能够在互联网上，自动爬取文本，图片，视频，文件等。

Python爬虫系列开端
概述
基本框架

需要的第三方库

开发环境

概述

一个完整的爬虫，一般包含以下四部分或其中几个部分

主函数

spider

url管理器

url_manger

url下载器

url_downloader

网页解析器

html_parser

内容输出器

outputer

2-5的顺序也是爬虫工作时的逻辑顺序，从url管理器中获取url，用下载器下载网页内容，提交给解析器，解析后得到所需内容交给输出器，按一定格式输出。

BeautifulSoup (解析网页)

requests 或 urllib2 (获取网页)

urlparse (解析网页)

未安装的，可以使用

pip

工具在命令行安装，命令如下

pip install beautifulsoup4

pip install requests

pip install urllib2

…

在这里，推荐JetBrain公司的Pycharm。

大家可以在其官网下载免费的社区版：https://www.jetbrains.com/pycharm/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 网络爬虫爬虫

相关文章推荐

新的分享

章节导航