您的位置:首页 > 编程语言 > Python开发

Python爬虫学习心得

2016-07-26 12:02 393 查看
简单爬虫架构的四个模块

1.url管理器

2.网页下载器:

(1)直接用urllib.urlopen(url)打开网站

(2)某些网站禁止爬虫,出现403forbidden,可生成一个Request对象,伪装成浏览器

req=urllib2.Request(url)
req.add_header('User-agent','Mozilla/5.0')
buf=urllib2.urlopen(req).read()(3)某些网站需要登陆验证
3.网页解析器

4.内容输出器
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: