您的位置:首页 > 编程语言 > Python开发

Python学习 之 爬虫

2015-06-22 21:18 573 查看
目标:下载贴吧或空间中所有图片

步骤:(1)获取页面代码 (2)获取图片URL,下载图片

代码如下:

#!/usr/bin/python
import re
import urllib

def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html

def getImg(html):
reg=r'src="(.*?\.jpg)" width'
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
x=0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

html=getHtml("http://tieba.baidu.com/p/749901827?fr=good")
getImg(html)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: