您的位置:首页 > 其它

urllib2模块学习--基本使用

2014-04-21 13:57 183 查看
urllib2:用于抓取网页信息的模块。
第一种使用方法:

# coding:utf-8
import urllib2
url = 'http://www.baidu.com'
res = urllib2.urlopen(url)
print res.read()
第二种使用方法:
# coding:utf-8
import urllib2
url = 'http://www.baidu.com'
req = urllib2.Request(url)
res = urllib2.urlopen(req)
print res.read()


第一种使用方式只能由于简单的web请求,但需要更加灵活的web请求,需要使用第二种方法。

比如给添加headers,传送data等。

添加headers,伪装成浏览器访问页面

# coding:utf-8
import urllib2
url = 'http://www.baidu.com'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0'}
req = urllib2.Request(url,headers=headers)
res = urllib2.urlopen(req)
print res.read()


关于request和response的属性
上面req是个Request对象,有关于它的属性,可以使用dir(req)打印出来。
host = req.get_host() # 获取请求主机名
req.add_header(key,val) # 添加headers


上面res是个file-like对象,使用dir(res)可以查询属性。
url = res.url # 获取请求Url
code = res.code # 获取返回状态码


本文出自 “fly天地” 博客,请务必保留此出处http://liuping0906.blog.51cto.com/2516248/1399506
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: