Python下载百度贴吧帖子里面的图片
2015-06-18 16:55
609 查看
学习网络爬虫的第一个程序:
`
#-*- coding:utf-8 -*- #使用utf-8字符集 import re import urllib def get_content(url): """ 获取页面源码""" html = urllib.urlopen(url) #获取网站页面的地址 content = html.read() #将页面读取到content变量中 html.close() #关闭页面 return content def get_images(info): """ 获取页面里面的图片 """ regex = r'class="BDE_Image" pic_type="." width="..." height="..." src="(.+?\.jpg)"' #正则表达式匹配查找出图片的地址 . 表示这里可以是任意一个字符 .+?\.jpg 表示这里可以是任意字符串直到出现.jpg为止 pat = re.compile(regex) image_code = re.findall(pat,info) #print image_code #打印出匹配的对象 print len(image_code) #打印出总共匹配了多少张图片 i = 1 for image_url in image_code: print image_url urllib.urlretrieve(image_url,'%s.jpg' % i) #下载图片并命名为 i.jpg i +=1 info = get_content('http://tieba.baidu.com/p/3833299105')#页面地址 print get_images(info)
`
相关文章推荐
- python最简单的爬取邮箱地址
- python 小记
- ConfigParser
- 转:Python之全局变量
- python--的若干内置属性
- selenium python 环境搭建(64位 windows)
- Python学习 之 编程
- Python字符编码理解
- python操作mysql
- Python学习 之 走进python
- Theano2.1.13-基础知识之PyCUDA、CUDAMat、Gnumpy的兼容
- Theano2.1.13-基础知识之PyCUDA、CUDAMat、Gnumpy的兼容
- ubuntu下python+django开发环境搭建
- 转的:运维新手们,别再问需不需要学PYTHON了
- Python OS模块总结
- 【第六周:列表与元组】#根据单词的长度对一个单词列表进行排序
- python外部传参方法总结
- Python os 模块文件操作
- [Python]同是新手的我,分享一些经验
- python 正则表达式入门(匹配IP)