python截取郑州大学贴吧网页
2016-04-03 18:34
519 查看
做这个有什么用呢?一方面,有时候想从贴吧网页中寻找我们需要的信息,但是一页一页翻过于繁琐,我们可以集中将网页内容截取下来,统一处理。另一方面,贴吧内容是实时更新的,有时候你想要的内容不经意间因贴吧机制就沉到了底。这时候,在没时间的情况下,我们就需要机器我们自动地将网页保存到本地啦。废话不多说。上菜。
本代码是模仿“山东大学贴吧数据抓取”而为,版权所有。然,与其不同的是,页码的处理上,zzu是以50为一个单位的,且是从0开始,需要注意。
# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:陆嵩 # 日期:2016-04-1 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 # 功能:下载对应页码内的所有页面并存储为html文件。 #--------------------------------------- import string, urllib2 def baidu_tieba(url,begin_page,end_page): for i in range(begin_page, end_page+1): filename = string.zfill(i,3) + '.html'#自动填充成三位的文件名 print '正在获取第' + str(i) + '个网页,并将其存储为' + filename + '......' f = open(filename,'w+') response = urllib2.urlopen(url + str(50*(i-1)),timeout=10) the_page = response.read() f.write(the_page) f.close() zzuurl="http://tieba.baidu.com/f?kw=%E9%83%91%E5%B7%9E%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=" begin_page = int(raw_input(u'请输入开始的页数:\n')) end_page = int(raw_input(u'请输入终点的页数:\n')) baidu_tieba(zzuurl,begin_page,end_page)
本代码是模仿“山东大学贴吧数据抓取”而为,版权所有。然,与其不同的是,页码的处理上,zzu是以50为一个单位的,且是从0开始,需要注意。
相关文章推荐
- python入门(一)
- 深刻理解Python中的元类(metaclass)
- python web框架——初识tornado
- Python写的实时地球图片下载工具
- Python进阶学习小结-1.md
- Python中的str与bytes
- Python中的str与bytes
- 学习Python,学习Pygame(四)
- Python中生成唯一ID的库——UUID
- Python-NumPy基础
- Python中的sys.path
- python爬虫(爬取糗事百科段子)_get_text() , 文件写入
- python选择排序
- numpy教程:快速傅里叶变换模块numpy.fft
- numpy教程:快速傅里叶变换模块numpy.fft
- 新手容易懵之—Python虚拟环境
- Python—RabbitMQ
- 关于python opencv使用
- 关于python 的url_encode关于的嵌套字典类型变量的编码扩展
- python+list的几个操作