python爬虫实例
2015-10-20 19:08
253 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lyq2013/article/details/49281299
本文用一个简单的例子说明如何用python进行爬虫。
- python 2.7.5
- Ubuntu 14.04
所需的python库
- urllib:用来抓取和解析网页
- re:处理正则表达式
代码块
- 下面的例子是用python爬虫获取某网页的图片,并保存到本地
import urllib import re import os def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre, html) # save the pics to a new folder. os.mkdir('pics') local = os.getcwd() + '/pics/' x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl, local + '%s.jpg' % x) x += 1 html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)
- 对正则表达式不熟悉的话可以学习一下相关知识
- 运行该程序后会在pics目录下看到下载好的jpg图片
源文件在这里
- python爬虫的功能很强大,可以根据所需信息的不同对正则表达式进行修改
- 对爬取的数据可以依据数据挖掘的方式进行处理
- 源文件
相关文章推荐
- python数据分析之爬虫三:BeautifulSoup库爬虫实例
- Python爬虫爬取深大信息工程学院老师个人介绍网址小实例
- Python爬虫实例:爬取猫眼电影——破解字体反爬
- Python微博移动端爬虫实例(附代码)
- python爬虫实例(urllib&BeautifulSoup)
- python爬虫(5)实例
- Python爬虫利用cookie实现模拟登陆实例详解
- Python爬虫获取图片并下载保存至本地的实例
- python爬虫实践学习实例之模拟登录
- Python实例:网络爬虫抓取豆瓣3万本书(3)
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- python爬虫之requests库实例代码
- Python爬虫爬取动态页面思路+实例(二)
- python爬虫实例——爬取智联招聘信息
- python 网络爬虫入门(一)———第一个python爬虫实例
- python通过伪装头部数据抵抗反爬虫的实例
- Python一个简单的爬虫实例
- python爬虫实例项目大全
- python爬虫实例项目大全
- Python爬虫包 BeautifulSoup 递归抓取实例详解