您的位置：首页 > 编程语言 > Python开发

【python爬虫学习笔记】01 python网络爬虫与信息提取

2018-12-04 17:01 661 查看

来自于MOOC网的北京理工大学嵩天老师的python爬虫与信息提取的课程笔记，同步学习，持续更新

python网络爬虫与信息提取

课程分为以下6个部分

1. requests
自动爬取html页面，自动网络请求提交

2. robots.txt
网络爬虫排除标准

3. beautiful soup
解析html页面

4. projects
实战项目A/B

5. Re
正则表达式详解，提取页面关键信息

6. Scrapy
网络爬虫原理介绍，专业爬虫框架介绍

附：常用的python开发工具

文本工具类：
1.IDLE
适用于
python入门
功能简单直接
300+代码以内
2.sublime text
专为程序员开发的第三方专用编程工具
专业编程体验
多种编程风格
工具非注册免费试用
集成工具类：
1.pycharm
社区版免费
简单，集成度高
适合较复杂工程
2.wing
公司维护，工具收费
调试功能丰富
版本控制，版本同步
适合多人共同开发
3.visual studio&ptvs
微软公司维护
win环境为主
调试功能丰富
4.eclipse&pydev
开源ide开发工具
需要有一定开发经验
科学计算，数据分析
1.canopy
公司维护，工具收费
支持近500个第三方库
适合科学计算领域应用开发
2.anaconda
开源免费
支持近800个第三方库

网络爬虫的尺寸

小规模，数据量小，爬取速度不敏感：requests库
爬取网页，玩转网页
中规模，数据规模较大，爬取速度敏感：scrapy库
爬取网站，爬取系列网站
大规模，搜索引擎，爬取速度关键：定制开发
爬取全网

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航