您的位置：首页 > 编程语言 > Python开发

模拟登录新浪微博（Python) - 转

2015-10-19 18:05 627 查看

Update: 如果只是写个小爬虫，访问需要登录的页面，采用填入cookie 的方法吧，简单粗暴有效，详细见：http://www.douban.com/note/264976536/
模拟登陆有时需要了解js 加密（散列）方法，输入验证法等，同一段代码很难一直有效。

正文：

PC 登录新浪微博时，在客户端用js预先对用户名、密码都进行了加密，而且在POST之前会GET 一组参数，这也将作为POST_DATA 的一部分。这样，就不能用通常的那种简单方法来模拟POST 登录（比如人人网）。

由于要用的一部分微博数据用API获取不方便，所以还是要自己写个小爬虫，模拟登录是必不可少的。琢磨了一下这个东西，最终登录成功。

1，在提交POST请求之前，需要GET 获取两个参数。
地址是：http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)
得到的数据中有 "servertime" 和 "nonce" 的值，是随机的，其他值貌似没什么用。

2，通过httpfox 观察POST 的数据，参数较复杂，其中 “su" 是加密后的username, "sp"是加密后的password。"servertime" 和 ”nonce" 是上一步得到的。其他参数是不变的。

username 经过了BASE64 计算： username = base64.encodestring( urllib.quote(username) )[:-1];
password 经过了三次SHA1 加密，且其中加入了 servertime 和 nonce 的值来干扰。
即：两次SHA1加密后，将结果加上 servertime 和 nonce 的值，再SHA1 算一次。

将参数组织好， POST请求。这之后还没有登录成功。
POST后得到的内容中包含一句 location.replace("http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&retcode=101&reason=%B5%C7%C2%BC%C3%FB%BB%F2%C3%DC%C2%EB%B4%ED%CE%F3");

这是登录失败时的结果，登录成功后结果与之类似，不过retcode 的值是0 。接下来再请求这个URL，这样就成功登录到微博了。
记得要提前build 缓存。

下面是完整代码（没加注释，凑合看吧）：

#! /usr/bin/env python
#coding=utf8
import urllib
import urllib2
import cookielib
import base64
import re
import json
import hashlib

cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
postdata = {
'entry': 'weibo',
'gateway': '1',
'from': '',
'savestate': '7',
'userticket': '1',
'ssosimplelogin': '1',
'vsnf': '1',
'vsnval': '',
'su': '',
'service': 'miniblog',
'servertime': '',
'nonce': '',
'pwencode': 'wsse',
'sp': '',
'encoding': 'UTF-8',
'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
'returntype': 'META'
}

def get_servertime():
url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'
data = urllib2.urlopen(url).read()
p = re.compile('\((.*)\)')
try:
json_data = p.search(data).group(1)
data = json.loads(json_data)
servertime = str(data['servertime'])
nonce = data['nonce']
return servertime, nonce
except:
print 'Get severtime error!'
return None

def get_pwd(pwd, servertime, nonce):
pwd1 = hashlib.sha1(pwd).hexdigest()
pwd2 = hashlib.sha1(pwd1).hexdigest()
pwd3_ = pwd2 + servertime + nonce
pwd3 = hashlib.sha1(pwd3_).hexdigest()
return pwd3

def get_user(username):
username_ = urllib.quote(username)
username = base64.encodestring(username_)[:-1]
return username

def login():
username = '你的登录邮箱'
pwd = '你的密码'
url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)'
try:
servertime, nonce = get_servertime()
except:
return
global postdata
postdata['servertime'] = servertime
postdata['nonce'] = nonce
postdata['su'] = get_user(username)
postdata['sp'] = get_pwd(pwd, servertime, nonce)
postdata = urllib.urlencode(postdata)
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0'}
req = urllib2.Request(
url = url,
data = postdata,
headers = headers
)
result = urllib2.urlopen(req)
text = result.read()
p = re.compile('location\.replace\(\'(.*?)\'\)')
try:
login_url = p.search(text).group(1)
#print login_url
urllib2.urlopen(login_url)
print "登录成功!"
except:
print 'Login error!'

login()

欢迎交流。

导入cookies方法：

之前写过一篇模拟登录新浪微博，是采用POST 用户名/密码等参数（经过加密）并保存Cookie来模拟登录的方法。
一般情况下，为了保证安全性，网站会定期更新登录的detail，例如修改参数名、更新加密（散列）算法等。所以模拟登录的代码定期肯定会失效，但是如果网站没有进行大的更新的话，稍微改一改还是能用的。另外，碰到验证码的情况就更难办了，虽然程序可以一定程度地识别验证码字符，但目前很难找到简单的可以通用的验证码识别程序。
很多豆友反馈有模拟登录新浪微博抓取数据的需求，其实对于一般的微博数据获取，如用户信息、微博内容等，使用微博开放平台API是更明智的选择：速度更快，而且节省许多网页处理的功夫。对于API没有开放的数据，我们再采用模拟登录的方法。

熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录微博。如果不那么熟悉的话，其实可以采用更naive的思路来解决：直接将Cookie发送给新浪微博以实现模拟登录。

1，获取Cookie
很简单，使用Chrome浏览器的”开发者工具(Developer Tools)“或者Firefox的"HTTPFOX"等插件就可以直接查看自己新浪微博的Cookie。（注：这个私人Cookie千万不要泄露哦！）
比如，Chrome 查看cookie （快捷键F12 可以调出chrome开发者工具）

cookie in chrome

2，将Cookie作为访问微博的header参数提交
headers = {'cookie': 'your cookie'}
req = urllib2.Request(url, headers=headers) #每次访问页面都带上 headers参数
r = urllib2.urlopen(req)
具体代码见：https://gist.github.com/ghostrong/d10c061000b7b65e5039

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航