您的位置：首页 > 编程语言 > Python开发

Python 开发简单爬虫 - 基础框架

2018-01-26 16:34 495 查看

Python 开发简单爬虫 - 基础框架

1. 目标：开发轻量级爬虫（不包括需登陆的和 Javascript异步加载的）
　　不需要登陆的静态网页抓取
2. 内容：
　　2.1 爬虫简介
　　2.2 简单爬虫架构
　　2.3 URL管理器
　　2.4 网页下载器（urllib2）
　　2.5 网页解析器（BeautifulSoup）
　　2.6 完整实例：爬取百度百科Python词条相关的1000个页面数据
3. 爬虫简介：一段自动抓取互联网信息的程序
　　

　　爬虫价值：互联网数据，为我所用。
　　

4. 简单爬虫架构：
　　

　　运行流程：　　　
　　

5. URL管理器：管理待抓取URL集合和已抓取URL集合
　　- 防止重复抓取、防止循环抓取
　　

　　- 实现方式：
　　

6. 网页下载器：将互联网URL对应的网页下载到本地的工具
　　

　　- 分类：
　　

　　- urllib2 下载网页的方法：
　　　　1. 最简洁方法： url ===> urllib2.urlopen(url)　　　

　　　　2. 添加data、http header：（url，data，header） ===> urllib2.Request ===> urllib2.urlopen(request)

　　　　3. 添加特殊情景的处理器：
　　　　　　

7. urllib2 实例代码演示：

8. 网页解析器：从网页中提取有价值数据的工具
　　

　　python 的网页解析器：
　　

　　结构化解析 - DOM ( Document Object Model) 树：
　　

9. 网页解析器 - Beautiful Soup
　　9.1 Beautiful Soup
　　　　- Python 第三方库，用于从HTML或XML中提取数据
　　　　- 官网：http://www.crummy.com/software/BeautifulSoup
　　9.2 安装并测试 beautifulsoup4
　　　　- 安装：pip install beautifulsoup4
　　　　- 测试：import bs4
　　9.3 Beautiful Soup语法
　　　　

　　9.4 创建 BeautifulSoup 对象

　　9.5 搜索节点（find_all， find）

　　9.6 访问节点信息

10. BeautifulSoup 实例测试

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航