Python爬虫学习心得
2016-07-26 12:02
393 查看
简单爬虫架构的四个模块
1.url管理器
2.网页下载器:
(1)直接用urllib.urlopen(url)打开网站
(2)某些网站禁止爬虫,出现403forbidden,可生成一个Request对象,伪装成浏览器
req=urllib2.Request(url)
req.add_header('User-agent','Mozilla/5.0')
buf=urllib2.urlopen(req).read()(3)某些网站需要登陆验证
3.网页解析器
4.内容输出器
1.url管理器
2.网页下载器:
(1)直接用urllib.urlopen(url)打开网站
(2)某些网站禁止爬虫,出现403forbidden,可生成一个Request对象,伪装成浏览器
req=urllib2.Request(url)
req.add_header('User-agent','Mozilla/5.0')
buf=urllib2.urlopen(req).read()(3)某些网站需要登陆验证
3.网页解析器
4.内容输出器
相关文章推荐
- python中continue和break的使用示例
- Python升级、iPython安装和python自动补全
- python 调用zabbix api接口实现主机的增删改查
- PyCharm2016.3专业版注册码
- ubuntu下怎么解决python "Non-ASCII character"错误
- Python学习笔记——文件写入和读取
- ipython notebook设置工作路径和自动保存.py文件 ipython_notebook_config.py
- Python(1):入门
- 【Python学习】python+Eclipse+pydev环境搭建
- Python 练习册,每天一个小程序(1)
- python学习第十天 -- 函数
- 列表、元组以及字符串
- python脚本编程:批量复制或删除文件
- python 元组列表字典的区别
- Python----压缩与解压缩文件
- python windows系统时间同步
- Python 练习实例21
- 数据抓取常用:python时间转换
- dbus-python指南
- Python获取Mac地址