python实现简易网络爬虫
2015-10-11 18:48
597 查看
#!user/bin/python """ Created on Sun Oct 11 18:10:27 2015 @author: ccl """ import urllib import re def getHtml(url): #得到指定url中的页面的内容 page = urllib.urlopen(url) html = page.read() return html def getImg(html): #得到给定页面中的照片并保存在本地 reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre, html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl, '%s.jpg'%x) x += 1 html = getHtml("http://tieba.baidu.com/p/2460150866") getImg(html)
urllib.urlretrieve(url[, filename[, reporthook[, data]]])
参数说明:
url:外部或者本地url
filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);
reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。
相关文章推荐
- 2015 ACM/ICPC 合肥赛区网络赛——吐槽向
- 浅谈HTTP中Get与Post的区别
- Android 网络编程使用httpClient批量上传文件并监听进度
- 基于tcp的socket编程。
- VMware虚拟机下RedHat6 配置网络实现远程连接
- 关于socket与网络协议的整理
- 第16章 网络IPC:套接字
- 详解为何iptables规则中端口和网络协议类型必须同时出现
- android访问网络图片
- poj1273网络流入门题
- 覆盖你 80 % 网络生活的,竟是这样一家神秘实验室
- tcp 客户、服务器程序示例
- 无线网络破解,破解wap密码
- 异常处理 续之(堆栈解退、auto_ptr)http://blog.csdn.net/feitianxuxue/article/details/7314079
- http中get、post、head对比
- iOS9下修改回HTTP模式进行网络请求
- 静态 http://www.cnblogs.com/lzjsky/archive/2011/01/24/1943199.html
- java中的main函数为什么是静态的 http://zhidao.baidu.com/link?url=k4HpxWZy71GfFpKCNXSvU-Ji9hqbWGWtNryPolNi3ziBPQ
- 静态成员 http://www.verydemo.com/demo_c92_i221125.html
- C++ 类的静态成员详细讲解 http://www.cnblogs.com/morewindows/archive/2011/08/26/2154198.html