您的位置:首页 > 编程语言 > Python开发

python截取郑州大学贴吧网页

2016-04-03 18:34 519 查看
做这个有什么用呢?一方面,有时候想从贴吧网页中寻找我们需要的信息,但是一页一页翻过于繁琐,我们可以集中将网页内容截取下来,统一处理。另一方面,贴吧内容是实时更新的,有时候你想要的内容不经意间因贴吧机制就沉到了底。这时候,在没时间的情况下,我们就需要机器我们自动地将网页保存到本地啦。废话不多说。上菜。

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:百度贴吧爬虫
#   版本:0.1
#   作者:陆嵩
#   日期:2016-04-1
#   语言:Python 2.7
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
#   功能:下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page, end_page+1):
filename = string.zfill(i,3) + '.html'#自动填充成三位的文件名
print '正在获取第' + str(i) + '个网页,并将其存储为' + filename + '......'
f = open(filename,'w+')
response = urllib2.urlopen(url + str(50*(i-1)),timeout=10)
the_page = response.read()
f.write(the_page)
f.close()
zzuurl="http://tieba.baidu.com/f?kw=%E9%83%91%E5%B7%9E%E5%A4%A7%E5%AD%A6&ie=utf-8&pn="
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
baidu_tieba(zzuurl,begin_page,end_page)


本代码是模仿“山东大学贴吧数据抓取”而为,版权所有。然,与其不同的是,页码的处理上,zzu是以50为一个单位的,且是从0开始,需要注意。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: