python学习之小小爬虫
2015-06-19 10:50
453 查看
学习python一段时间了,写了一个图片的小小爬虫,分享下,不喜勿喷!
#coding=utf-8 ''' Created on 2015-5-22 @author: 悦文 ''' import re import urllib def getHtml(url): #第一次忘写了参数,⊙�⊙b汗 html=urllib.urlopen(url) #获取给定网址的页面源代码,是一个对象文件 pageContent=html.read() #读取网页文件中的内容 #html.close() #关闭sockit return pageContent #返回读取网页文件中的内容 #print url.geturl() #打印请求的网址 #print pageContent def callbackfunc(blocknum, blocksize, totalsize): '''回调函数 @blocknum: 已经下载的数据块 @blocksize: 数据块的大小 @totalsize: 远程文件的大小 ''' percent = 100.0 * blocknum * blocksize / totalsize if percent > 100: percent = 100 print "--------------------------------------------------------------------------" print " 小图一张已到手 " print "--------------------------------------------------------------------------" print "%.2f%%"% percent def getImg(pageContent,callbackfunc): #查找图片的正则表达式 src=r'zoomfile=\"(http://img\..+\.jpg)\" file' # @坑1,之前没有加 file,导致从zoomfile开始所有的字符串全都匹配 srcm=re.compile(src) getImgSrc=re.findall(srcm,pageContent) #image_test_len=len(getImgSrc) #print getImgSrc name=260 #逐条获得图片地址并下载 for image in getImgSrc: urllib.urlretrieve(image,"E:\\python\\%s.jpg"% name,callbackfunc) name+=1 #return image_test_len if __name__=='__main__': pageContent=getHtml("http://old.nr99.com/thread-123208-1-2.html") getImg(pageContent,callbackfunc)
相关文章推荐
- 用Cython编译写出更快的Python代码
- python学习笔记之小小购物车
- Python学习 之 数据类型(邹琪鲜 milo)
- Python写的一个简单监控系统
- 使用py2exe将python 脚本生成exe可执行文件
- python网络爬虫
- Python 学习笔记10
- Python 删除特定时间段的文件
- 【练习题】有 3 个回文数字,第一个是两位数,第二个是三位数。将这两个数字相加得到第三个数字,这是个四位数。请问第三个数字是多少?
- python XML
- 【python练习】1
- python yaml
- 详解Python中的日志模块logging
- python中的urllib库和urllib2
- 无需操作系统和虚拟机,直接运行Python代码
- Python学习笔记(2)---Python杂记
- sklearn(scikit-learn)快速入门【Python实现】
- Python学习笔记(1)--python语言Web开发框架web2py
- Python转义字符
- Python正则表达式指南(转)