您的位置：首页 > 编程语言 > Python开发

Python爬虫学习心得

2016-07-26 12:02 393 查看

简单爬虫架构的四个模块

1.url管理器

2.网页下载器：

（1）直接用urllib.urlopen(url)打开网站

（2）某些网站禁止爬虫，出现403forbidden，可生成一个Request对象，伪装成浏览器

req=urllib2.Request(url)
req.add_header('User-agent','Mozilla/5.0')
buf=urllib2.urlopen(req).read()（3）某些网站需要登陆验证
3.网页解析器

4.内容输出器

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

python中continue和break的使用示例
Python升级、iPython安装和python自动补全
python 调用zabbix api接口实现主机的增删改查
PyCharm2016.3专业版注册码
ubuntu下怎么解决python "Non-ASCII character"错误
Python学习笔记——文件写入和读取
ipython notebook设置工作路径和自动保存.py文件 ipython_notebook_config.py
Python(1):入门
【Python学习】python+Eclipse+pydev环境搭建
Python 练习册，每天一个小程序(1)
python学习第十天 -- 函数
列表、元组以及字符串
python脚本编程：批量复制或删除文件
python 元组列表字典的区别
Python----压缩与解压缩文件
python windows系统时间同步
Python 练习实例21
数据抓取常用:python时间转换
dbus-python指南
Python获取Mac地址

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航