Python爬虫系列:开端
2017-03-21 19:49
288 查看
Python爬虫系列:开端
网络爬虫,顾名思义,是从网络上爬取特定信息的工具。利用Python,我们能以很少的代码,写出一个能为我们所用的网络爬虫,并且通过这个爬虫,我们便能够在互联网上,自动爬取文本,图片,视频,文件等。
Python爬虫系列开端
概述
基本框架
需要的第三方库
开发环境
概述
基本框架
一个完整的爬虫,一般包含以下四部分或其中几个部分主函数
spider
url管理器
url_manger
url下载器
url_downloader
网页解析器
html_parser
内容输出器
outputer
2-5的顺序也是爬虫工作时的逻辑顺序,从url管理器中获取url,用下载器下载网页内容,提交给解析器,解析后得到所需内容交给输出器,按一定格式输出。
需要的第三方库
BeautifulSoup (解析网页)requests 或 urllib2 (获取网页)
urlparse (解析网页)
未安装的,可以使用
pip工具在命令行安装,命令如下
pip install beautifulsoup4
pip install requests
pip install urllib2
…
开发环境
在这里,推荐JetBrain公司的Pycharm。大家可以在其官网下载免费的社区版:https://www.jetbrains.com/pycharm/
相关文章推荐
- Python爬虫Csdn系列II
- python爬虫系列
- Python爬虫系列博客
- 【Python爬虫系列】Python 爬取上海链家二手房数据
- 【Python爬虫系列】Python 爬取搜房网二手房数据
- python 爬虫系列
- Python爬虫学习系列教程
- Python爬虫学习系列教程
- Python爬虫学习系列
- 【Python爬虫系列】内容解析之BeautifulSoup
- python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
- Python爬虫学习系列教程
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- Python爬虫学习系列教程-----------爬虫系列 你值的收藏
- python爬虫系列文章
- Python爬虫Csdn系列III
- python 爬虫系列教程方法总结及推荐
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- 学习小记 - Python爬虫 (2) 爬虫闯关系列
- 数据科学工程师面试宝典系列之一--Python爬虫实战