2019经典版:Python爬虫验证码破解实战(内有详细代码)
今天,我想跟大家聊聊如何利用Python爬虫实战爬取验证码。不知道大家是否感兴趣?
1.破解验证码常见的三种方法:
(1)把验证码下载到本地,手动输入进行破解
(2)Tesseract光学识别模块:能够自动识别验证码,准确率不高,只能识别一些简单验证码
代码测试
pip install pytesseract
pip install pillow
转化为灰度图片
5b4 img = img.convert('L')
img.show()
二值化处理
threshold = 140
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
out = img.point(table, '1')
out.show()
img = img.convert('RGB')
enhancer = ImageEnhance.Color(img)
enhancer = enhancer.enhance(0)
enhancer = ImageEnhance.Brightness(enhancer)
enhancer = enhancer.enhance(2)
enhancer = ImageEnhance.Contrast(enhancer)
enhancer = enhancer.enhance(8)
enhancer = ImageEnhance.Sharpness(enhancer)
img = enhancer.enhance(20)
(3)云打码平台:
云打码
2.下面是我们用第一种方法来破解验证码:把验证码下载到本地,手动输入进行破解
前期准备工作:
爬取网站:古诗文网站 https://www.gushiwen.org/
开发环境:pycharm,python3.6
抓包工具:fiddler抓包,抓取登录接口
使用第三方模块:请求模块 requests,解析模块bs4
流程思路:
(1)首先明确我们要爬取的内容,准备好需要的开发工具和环境
(2)第一步:我们要进行模拟登录古诗文网站遇到的验证码,使用requests模块进行模拟登录,同时我们要先找到验证码的链接,下载好验证码
(3) 5b4 第二步:登录发送的请求时候,我们手动输入下载好的验证码
实战代码:
首先在pycharm下导入我们需要的第三方模块:requests,bs4
模拟登录页面的验证码图片,找到页面标签。然后解析定位,下载到本地
模拟登录之前,首先先输入验证码。然后再发送登录请求。用的是requests模块,直接封装好表单数据
运行函数:
上面是截图,下面是源代码:
#导入我们需要的第三方库
import requests
from bs4 import BeautifulSoup
import urllib.request
#封装好请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
#下载登录页面的图片
def download_code(s):
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
r = s.get(url=url, headers=headers)
soup = BeautifulSoup(r.text, 'lxml')
得到图片链接,
image_src = 'https://so.gushiwen.org' + soup.find('img', id="imgCode")['src']
print(image_src)
r_image = s.get(image_src, headers=headers)
with ope 5b4 n('code.png', 'wb') as fp:
fp.write(r_image.content)
查找表单所需要的两个参数
VIEWSTATE = soup.find('input', id="VIEWSTATE")['value']
VIEWSTATEGENERATOR = soup.find('input', id="VIEWSTATEGENERATOR")['value']
return VIEWSTATE, VIEWSTATEGENERATOR
#模拟登录
def login(view, viewg, s):
post_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx'
提示用户输入验证码
code = input('哥们.麻烦你输入验证码:')
formdata = {
'__VIEWSTATE': view,
'__VIEWSTATEGENERATOR': viewg,
'from': 'http://so.gushiwen.org/user/collect.aspx',
'email': '1090509990@qq.com',
'pwd': '123456',
'code': code,
'denglu': '登录',
}
r = s.post(url=post_url, headers=headers, data=formdata)
with open('gushi.html', 'w', encoding='utf8') as fp:
fp.write(r.text)
def main():
创建会话
s = requests.Session()
下载验证码到本地
view, viewg = download_code(s)
向post地址发送请求
login(view, viewg, s)
if 1114 name == 'main':
main()
- python爬虫实战--selenium验证码保存+多线程多标签+自动点击+完整代码
- Python爬虫实战代码
- 500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享
- Python爬虫实战:抓取并保存百度云资源(附代码)
- python爬虫实战:利用scrapy,短短50行代码下载整站短视频
- Python 爬虫入门(四)—— 验证码下篇(破解简单的验证码)
- python爬虫实战(四)--------豆瓣网的模拟登录(模拟登录和验证码的处理----scrapy)
- 纯代码系列:Python实现验证码图片(PIL库经典用法用法,爬虫12306思路)
- 图形解锁验证码破解(附Python代码)
- Python 1行代码实现文本分类(实战笔记),含代码详细说明及运行结果
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
- Python爬虫实战之爬取B站番剧信息(详细过程)
- 【含代码】Python爬虫实战:爬取全站小说排行榜
- Python 网络爬虫反爬破解策略实战
- Python 1行代码实现文本分类(实战笔记),含代码详细说明及运行结果
- Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)
- 爬虫实战---python图片验证码破解,PIL和安装
- python实现多线程暴力破解登陆路由器功能代码分享
- Python实战——爬虫