您的位置:首页 > 编程语言 > Python开发

编写Python爬虫抓取暴走漫画上gif图片的实例分享

2016-04-20 00:00 1131 查看
本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名。

Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析

先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。

这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。

但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。

而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。

注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。

Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.

爬虫源代码如下

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
req = urllib.request.Request(
url = url+str(count+1),
headers = headers
)
print(req.full_url)
content = urllib.request.urlopen(req).read()

soup = bs4.BeautifulSoup(content)          # BeautifulSoup
img_content = soup.findAll('img',attrs={'style':'width:460px'})

url_list = [img['src'] for img in img_content]   #列表推导 url
title_list = [img['alt'] for img in img_content]  #图片名称

for i in range(url_list.__len__()) :
imgurl = url_list[i]
filename = path + os.sep +title_list[i] + ".gif"
print(filename+":"+imgurl)             #打印下载信息
urllib.request.urlretrieve(imgurl,filename)    #下载图片


在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹,所有的图片会自动下载到该目录中。

您可能感兴趣的文章:

Python天气预报采集器实现代码(网页爬虫)
python抓取网页图片示例(python爬虫)
Python爬虫框架Scrapy安装使用步骤
python模拟新浪微博登陆功能(新浪微博爬虫)
零基础写python爬虫之使用Scrapy框架编写爬虫
零基础写python爬虫之爬虫编写全记录
python编写爬虫小程序
python3使用urllib模块制作网络爬虫
Python使用Mechanize模块编写爬虫的要点解析
玩转python爬虫之URLError异常处理
玩转python爬虫之cookie使用方法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Python 爬虫