【python实验报告】用urllib来爬取网站页面中的图片和视频
2017-04-02 23:03
274 查看
在python中,有很多方法都可以实现网站页面中的图片和视频的爬取,urllib是其中的一种。
1. 根据URL获取页面源码
2. 通过正则表达式匹配出页面中符合要求的图片地址
3. 根据图片地址下载图片到本地目录
本例中还有很多需要完善的地方,比如:异常处理、用os库新建本地文件夹、匹配所有类型的图片、代码如何改成面向对象等。
视频的爬取方法跟图片完全一样,只是扩展名不同。
爬取图片
一. 实验目的
熟悉用urllib爬取图片的用法二. 实验环境
python3.6、urllib包、re包三. 实验步骤
import urllib import urllib.request import re import time url = "http://tu.duowan.com/m/meinv" headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'} #模拟浏览器访问 #1.根据URL获取页面源码 request = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(request) html = response.read().decode('utf-8') #2.通过正则表达式匹配出页面中符合要求的图片地址 pattern = re.compile(r'http://[\S]*\.jpg') #当前只匹配jpg格式的图片 lists = re.findall(pattern, html) #3.根据图片地址下载图片到本地目录 print("图片下载开始!") num = 1 for item in lists: urllib.request.urlretrieve(item, 'pic/' + str(num) + '.jpg') #pic目录需要预先建好,否则会报错 print("正在下载第%s张图片"%num) if num == 12: # 只下载12张图片 break time.sleep(1) #为了防止请求过快 num += 1 print("图片下载结束!")
四. 实验结果
实验结果五. 实验总结
用urllib来爬取网站中的图片很简单,主要分为3步:1. 根据URL获取页面源码
2. 通过正则表达式匹配出页面中符合要求的图片地址
3. 根据图片地址下载图片到本地目录
本例中还有很多需要完善的地方,比如:异常处理、用os库新建本地文件夹、匹配所有类型的图片、代码如何改成面向对象等。
视频的爬取方法跟图片完全一样,只是扩展名不同。
相关文章推荐
- Python urllib2递归抓取某个网站下图片
- Python urllib2递归抓取某个网站下图片
- 通用型的网站架构设计-页面+图片+视频+搜索
- python实现爬取网站图片,视频动画到指定路径(附代码)
- python利用urllib实现爬取京东网站商品图片的爬虫实例
- python爬虫爬网站的视频和图片
- python中使用urllib下载网站图片
- Python urllib2递归抓取某个网站下图片
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- .net 地址栏传中文乱码 的解决方法 (如果查看的图片或视频为中文名,页面无法查看图片或者视频)也是如此
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- 屏蔽优酷网,土豆网等外链网站视频广告及点击视频画面弹出页面的网页代码
- 网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析
- DirectShow音视频同步实验报告(3)