python写个图片爬虫
2016-03-25 08:50
483 查看
[root@MGServer pythonscript]# vim getimg.py
#!/usr/bin/python
#encoding:utf8
import requests,sys,re
#定义一个方法,获取网站图片,并下载
def getimg(url):
#请求url内容
page=requests.get(url)
#获取内容
pagetext=page.content
#定义正则表达式。
reg=r'src=.*?\.jpg'
#对获取的内容进行匹配
imglist=re.findall(reg,pagetext)
#为保存的图片文件命名
imgname=1
#循环获取带有src的url地址列表
for x in imglist:
#删除url中的前面src=字段
x=x.lstrip('src="')
try:
#下载图片
img=requests.get(x)
#打开文件,由于imgname是用int递增,所以要使用str把imgname变成str。
of=open('/root/'+str(imgname)+".jpg",'wb')
#保存文件
of.write(img.content)
#关闭文件打开操作
of.close()
#文件名递增
imgname+=1
except IOError,e:
print "url is error:"+str(e)
#sys.exit(1)
#发生错误忽略
pass
#执行定义的函数
getimg(sys.argv[1])
执行方法:
python getimg.py http://www.163.com
#!/usr/bin/python
#encoding:utf8
import requests,sys,re
#定义一个方法,获取网站图片,并下载
def getimg(url):
#请求url内容
page=requests.get(url)
#获取内容
pagetext=page.content
#定义正则表达式。
reg=r'src=.*?\.jpg'
#对获取的内容进行匹配
imglist=re.findall(reg,pagetext)
#为保存的图片文件命名
imgname=1
#循环获取带有src的url地址列表
for x in imglist:
#删除url中的前面src=字段
x=x.lstrip('src="')
try:
#下载图片
img=requests.get(x)
#打开文件,由于imgname是用int递增,所以要使用str把imgname变成str。
of=open('/root/'+str(imgname)+".jpg",'wb')
#保存文件
of.write(img.content)
#关闭文件打开操作
of.close()
#文件名递增
imgname+=1
except IOError,e:
print "url is error:"+str(e)
#sys.exit(1)
#发生错误忽略
pass
#执行定义的函数
getimg(sys.argv[1])
执行方法:
python getimg.py http://www.163.com
相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- 爬虫笔记
- 基于C#实现网页爬虫
- Nodejs爬虫进阶教程之异步并发控制
- Pthon批量处理将pdb文件生成dssp文件
- 如何优雅地使用c语言编写爬虫
- PHP实现简单爬虫的方法
- NodeJS制作爬虫全过程(续)
- node.js基础模块http、网页分析工具cherrio实现爬虫
- PHP爬虫之百万级别知乎用户数据爬取与分析
- 一个PHP实现的轻量级简单爬虫
- nodejs爬虫抓取数据乱码问题总结
- 基于Node.js的强大爬虫 能直接发布抓取的文章哦
- nodejs爬虫抓取数据之编码问题
- Node.js编写爬虫的基本思路及抓取百度图片的实例分享
- python实现爬虫统计学校BBS男女比例(一)
- 使用Python编写基于DHT协议的BT资源爬虫
- Python使用爬虫猜密码
- python实现爬虫统计学校BBS男女比例之数据处理(三)