您的位置:首页 > 编程语言 > Python开发

python3 爬虫 urlretrieve

2016-08-20 19:55 393 查看
网上的Python3 爬虫教程很少,自己就写了个小例子。

import re
import urllib.request
###result yes
# version 3.5
def Schedule(a,b,c):
'''
a:已经下载的数据块
b:数据库块的大小
c:远程文件的大小
'''
per = 100.0 * a * b / c
if per>100:
per = 100
print('完成!')
print('%.2f%%' % per)
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html

def getImg(html):
html = html.decode('utf-8')
reg = r'src="(.*?\.jpg)" width'
imgre = re.compile(reg)
imglist = imgre.findall(html)
#print(imglist)
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'e:\\test\\%s.jpg' % x,Schedule)#是不是Python3.X中把这个也改变了?
x += 1

html = getHtml('http://tieba.baidu.com/p/741081023')
print(getImg(html))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: