您的位置：首页 > 编程语言 > Python开发

python截取郑州大学贴吧网页

2016-04-03 18:34 519 查看

做这个有什么用呢？一方面，有时候想从贴吧网页中寻找我们需要的信息，但是一页一页翻过于繁琐，我们可以集中将网页内容截取下来，统一处理。另一方面，贴吧内容是实时更新的，有时候你想要的内容不经意间因贴吧机制就沉到了底。这时候，在没时间的情况下，我们就需要机器我们自动地将网页保存到本地啦。废话不多说。上菜。

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：陆嵩
#   日期：2016-04-1
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page, end_page+1):
filename = string.zfill(i,3) + '.html'#自动填充成三位的文件名
print '正在获取第' + str(i) + '个网页，并将其存储为' + filename + '......'
f = open(filename,'w+')
response = urllib2.urlopen(url + str(50*(i-1)),timeout=10)
the_page = response.read()
f.write(the_page)
f.close()
zzuurl="http://tieba.baidu.com/f?kw=%E9%83%91%E5%B7%9E%E5%A4%A7%E5%AD%A6&ie=utf-8&pn="
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
baidu_tieba(zzuurl,begin_page,end_page)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航