您的位置：首页 > 编程语言 > Python开发

python爬虫系列（二）：标准库的使用（A）

2017-09-19 22:53 330 查看

（一）Py2和Py3中的基本库使用的区分

Urllib库是python中的一个功能强大的，用于操作URL。python2和python3中用法基本相同，但是。python2中分为urllib和urllib2库。下面列出常见的变化有：
1.python2.x使用import urllib2-->python3.x使用import urllib.request, urllib.error
2.python2.x使用import urllib -->python3.x使用import urllib.request, urllib.error,urllib.parse
3.python2.x使用import urlparse-->python3.x使用import urllib.parse
4.python2.x使用import urllib2.urlopen-->python3.x使用import urllib.request.urlopen
5.python2.x使用import urllib2.quote-->python3.x使用import urllib.request.quote
6.python2.x使用cookielib.CookieJar-->python3.x使用 http.CookieJar
7.python2.x使用import urllib2.Request-->python3.x使用import urllib.request.Request
大概也就这几种常用到的模块。希望能认真的区分，这能让你轻松面对两个版本的python。

（二）通过实际代码来介绍各种模块的应用。

Ps：本人一直使用py3.5版本，所以如版本不同，请自行按照一中介绍的进行切换。

小试牛刀：

import urllib.request
import urllib.parse
import http.cookiejar
url = "http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmint=yes&loginhash=L768q"
postdata = urllib.parse.urlencode({'usrname':'用户名','password':'密码'}).encode('utf-8')
req = urllib.request.Request(url,postdata)
req.add_header('User-Agent','Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebkit/537.36')
cjar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
urllib.request.install_opener(opener)
file = opener.open(req)
print (file.read().decode('gbk'))

代码难点解析：这段代码虽然小，但却涵盖了常用到的爬虫模块了。通过urllib.request发送请求，把要登陆的用户和密码在通过urlencode的解析后构建post请求对象。

在这里要强调–> 我们访问的每一个互联网页面都是通过Http协议进行。而http 协议是一个无状态协议。所谓的无状态协议就是无法维持会话之间的状态。为了保持会话的畅通，cookie和session应运而生。

所以，这里的代码进行了cookie的对象的设置。即cjar = http.cookiejar.CookieJar()。然后自己创建了一个opener对象，携带cookier对象。

注：urlencode的作用：接受参数形式为：[(key1, value1), (key2, value2),…] 和 {‘key1’: ‘value1’, ‘key2’: ‘value2’,…}

返回的是形如key2=value2&key1=value1字符串。

urllib.urlencode({‘name’: u’老王’.encode(‘utf8’), ‘sex’: u’男’.encode(‘utf8’)})

‘name=%E8%80%81%E7%8E%8B&sex=%E7%94%B7’

@关于cookie和session的使用，在接下来的系列中会详细介绍。如果有什么问题可以一起探讨一下。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫

相关文章推荐

新的分享

章节导航