您的位置:首页 > 编程语言 > Python开发

python爬虫-第二课

2018-09-14 09:21 106 查看

精选30+云产品,助力企业轻松上云!>>>


1.cookie保持 (cookie原理视频)
    把每一次请求的cookie 保存起来,下一次请求需要用
2.验证码原理
3.登录流程
    -1访问登录页面
        url = https://kyfw.12306.cn/otn/login/init
        method = get
    -2下载验证码(是图片,它一定会依赖cookie)
        url = https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand&0.20111433490049846
        method = get

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/6/21 0021 19:18
import random
import requests
# cookie保持
session = requests.Session()  #  requests.Session这个类帮我们去实现cookie保持
# 浏览器伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
session.headers.update(headers)
# 第一步 获取登录页面,获取cookie
login_page_url = 'https://kyfw.12306.cn/otn/login/init'
session.get(login_page_url)
#  print(session.cookies)
# 第二步 下载验证码图片
captcha_url = 'https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand&%s' % str(random.random())
# requests 请求参数的构建
data = {
'login_site': 'E',
'module': 'login',
'rand': 'sjrand',
str(random.random()): ''
}

# captcha_response = session.get(captcha_url, params=data)
captcha_response = session.get(captcha_url)
print(captcha_response.text)
with open('captcha.jpg', 'wb') as f:
f.write(captcha_response.content)

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Python