您的位置：首页 > 编程语言 > Python开发

Python requests+gevent+BeautifulSoup lxml 干点啥-加点速

2016-09-02 12:16 387 查看

图片不显示—->点这里

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

最近工作中有个需求是抓一些数据数据量上万讲真以前都是玩玩没实战所以来这个需求的时候我内心其实有点激动

然后我开始装逼了用request + BeautifulSoup(html) 用这两货实现

requests请求网络数据加载

BeautifulSoup(html) 自在解析器解析网络获取数据

啪啦啪啦啪啦啪啦没几下代码撸完了顿时感觉登上人生巅峰

开始运动哦不对是运行结果这货第一页(20个详情)数据用了快4分钟

要不是中途有些log打印我都以为他死了

我一想这么不行啊我特么600页的数据这能玩

然后我就想每次数据获取一整个套路下来

就是请求—>IO读取—>解析

能优化速度的地方就是 IO读取解析

有方向那就开始说说解析

本来用的BeautifulSoup 自带的解析器文档上说了速度慢

既然说了速度慢肯定有速度快的我就看了一下 lxml速度快需要安装C语言库

解析属于高度计算对于IO密集型与CPU密集来讲属于CPU密集型任务越底层的语言越有优势所以这里C语言会很快

然后就开始安装 lxml

果不其然报错了当时在公司做是Windows 说是缺少一个啥子具体不记得(反正是微软的 )

如果Windows安装出相关问题可以先用pip install wheel安装这个然后下载lxml相关的whl文件直接下载下来安装就行

这里要选择版本什么的

相关whl下载地址进去 ctrl+F搜索就行注意版本号和你Py版本 34 35 27 啥的

http://link.zhihu.com/?target=http%3A//www.lfd.uci.edu/~gohlke/pythonlibs/%23lxml

一顿折腾lxml终于安装OK

然后 requests+BeautifulSoup(lxml) 在运动一页50S

当时我就给吓尿了效率直接快10倍号码

真是 ‘搏一搏单车变摩托’

然后我又感觉我登上了人生巅峰电脑挂着下班回家

第二天一脸懵逼说好的数据呢中途不知道咋的卡着不动了一晚上没抓完本来以为一晚上10个小时差不多能抓完的结果来这么一出

然后想着我总不能又跑一次等10个小时吧没那闲功夫看着啊

然后想着能不能再IO等待那里做处理我想着请求过去了本地堵塞等着要是等待的时候干点别的比如开启另外的请求这样是不是效率很高很多

然后就查了一下多线程多进程

结果整出来gevent 异步框架里面用的协程(也是单线程不过可以跳度切换任务)

然后加上这个gevent之后

卧槽 —-直接每页变成 10S

最后完成那600页数据的读取在这个基础还加上了进程池pool

200页一个进程反正最后 3 40分钟就拿到了12000条数据

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

#### requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看

#### gevent 异步框架今天也是刚用用法也简单等会看代码

BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find

这里先贴两张图糗事百科数据获取的50页数据的情况 find VS select 貌似差不多没做详细对比不过我感觉还是find快些吧毕竟select返回list 大数据量下还是要测试一波两个都挺好用的看习惯

然后一看也有106秒左右为什么也不快因为没用代理IP(今天去相关网站找的一些用进去很慢而且很多不能用先放着) 然后如果访问太快直接返回我503 所以每请求一页 sleep(1) s 也就是说理论上如果不停这1S我50页应该是最多66秒左右能跑完也就是平均一页1S多一点

就算现在停了在异步和lxml的处理下大概也就2S一页其实算可以啦

再贴一记打印内容的

全部代码图一点点 (后面放github后会更新文章)

__author__ = 'Daemon1993'

import gevent
import requests
import time
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

SP = 1
Count=0

def getHtmlByFind(baseurl, page):
url = baseurl + str(page)
r = requests.session()

html = r.get(url, timeout=5)

#如果状态不正确 这里目的503 暂停时间增大一点
if (html.status_code != 200):
global SP
SP += 0.5
return

#减少内存压力 取出我们需要的那块 不用全部
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.find_all("div", class_="article block untagged mb15"):
name=tag.find("img").get('alt')
content=tag.find("div",class_="content").text.strip()
global Count
Count+=1
pass
# print("\\n 用户:{0} \\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

def getHtmlBySelect(baseurl, page):
url = baseurl + str(page)
r = requests.session()

html = r.get(url, timeout=5)

if (html.status_code != 200):
global SP
SP += 0.5
return

#减小内存压力
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.select('div[class="article block untagged mb15"]'):
name=tag.select('img')[0].attrs.get('alt')
content=tag.select('div[class="content"]')[0].get_text().strip()
global Count
Count+=1
print("\\n 用户:{0} \\n\\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

def useFind(baseurl):
start=time.time()
global  Count
Count=0
tasks = [gevent.spawn(getHtmlByFind, baseurl, index) for index in range(1, 50)]
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlByFind time {0}  size{1}'.format(elapsed,Count))

def useSelect(baseurl):
start=time.time()
global  Count
Count=0
#gevent.spawn 加入任务方法
tasks = [gevent.spawn(getHtmlBySelect, baseurl, index) for index in range(1, 50)]
#全部加入队列开始 处理
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlBySelect time {0}  size{1}'.format(elapsed,Count))

if __name__ == '__main__':
baseurl = "http://www.qiushibaike.com/8hr/page/"
#useFind(baseurl)
useSelect(baseurl)

主要看看 BeautifulSoup 的用法

先分析网页结构如何拿到我们想要的 1是每一个 2是有头像地址和名字 3是content内容

如下图取每个1的 2 3就行

find实现

跟就结构分析大题思路

1处是一个列表 —> find_all(“div”,class__=”className”)–List

然后对每个集合中取出 img 和 div[class=”content”]的内容代码如下

for tag in data.find_all("div", class_="article block untagged mb15"):
name = tag.find("img").get('alt')
content = tag.find("div", class_="content").text.strip()

#####select实现

这里要先记住一点 select 每次返回都是list 在你能控制的住的情况下取[0]

同样分析你会发现其实差不多只是写法上有些不同可以仔细看看两者的写法

for tag in data.select('div[class="article block untagged mb15"]'):
name = tag.select('img')[0].attrs.get('alt')
content = tag.select('div[class="content"]')[0].get_text().strip()

文档很多但是下面这个我觉得看着最舒服BeautifulSoup 相关文档

下面图片所示的好像是正规文档

不知道为啥也许是配色看的我头晕

正规军团

大学友

童真年代

画画出我的梦

梦里的天空

总会有彩虹

画画一只蜜蜂

乘着晚风

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python requests gevent lxml 爬虫

相关文章推荐

新的分享

章节导航

Python requests+gevent+BeautifulSoup lxml 干点啥-加点速

图片不显示—->点这里

很久没有写新的内容了，看最近的一篇 都有2/3个半年了 最近又看了一些爬虫文章 还是想深入研究下

夜深了 就是容易 说废话 铺垫做完了 现在 来讲讲这些东西

BeautifulSoup 超级6 叼炸天 去从网页数据中获取你要的数据 前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客 主要介绍的 用糗事百科 的数据 来看看咋使用select 和 find

主要看看 BeautifulSoup 的用法

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find