您的位置:首页 > 编程语言 > Python开发

【python爬虫学习笔记】01 python网络爬虫与信息提取

2018-12-04 17:01 661 查看

来自于MOOC网的北京理工大学嵩天老师的python爬虫与信息提取的课程笔记,同步学习,持续更新

python网络爬虫与信息提取

课程分为以下6个部分

1. requests
自动爬取html页面,自动网络请求提交

2. robots.txt
网络爬虫排除标准

3. beautiful soup
解析html页面

4. projects
实战项目A/B

5. Re
正则表达式详解,提取页面关键信息

6. Scrapy
网络爬虫原理介绍,专业爬虫框架介绍

附:常用的python开发工具

文本工具类:
1.IDLE
适用于
python入门
功能简单直接
300+代码以内
2.sublime text
专为程序员开发的第三方专用编程工具
专业编程体验
多种编程风格
工具非注册免费试用
集成工具类:
1.pycharm
社区版免费
简单,集成度高
适合较复杂工程
2.wing
公司维护,工具收费
调试功能丰富
版本控制,版本同步
适合多人共同开发
3.visual studio&ptvs
微软公司维护
win环境为主
调试功能丰富
4.eclipse&pydev
开源ide开发工具
需要有一定开发经验
科学计算,数据分析
1.canopy
公司维护,工具收费
支持近500个第三方库
适合科学计算领域应用开发
2.anaconda
开源免费
支持近800个第三方库

网络爬虫的尺寸

  1. 小规模,数据量小,爬取速度不敏感:requests库
    爬取网页,玩转网页

  2. 中规模,数据规模较大,爬取速度敏感:scrapy库
    爬取网站,爬取系列网站

  3. 大规模,搜索引擎,爬取速度关键:定制开发
    爬取全网

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: