python 网络爬虫
2014-05-02 17:50
218 查看
# -*- coding: cp936 -*- import string,urllib2 path = "G:/New Knowledge/practice/python/tmp/" def baidu_tieba(url,begin_page,end_page): for i in range(begin_page,end_page+1): Name = path+string.zfill(i,5)+'.html'#自动填充 print '下载'+str(i)+'个网页,并存为'+Name f = open(Name,'w+') data = urllib2.urlopen(url+str(i)).read() f.write(data) f.close() bdurl = raw_input(u'input url 去除最后的数字\n') begin_page = raw_input("begin page") end_page = raw_input("endpage") if not bdurl: bdurl = 'http://tieba.baidu.com/p/2296017831?pn=' if not begin_page: begin_page = 1 if not end_page: end_page = 10 baidu_tieba(bdurl,int(begin_page),int(end_page));
input url 去除最后的数字
http://tieba.baidu.com/p/301797825
begin page0
endpage9
下载1个网页,并存为00001.html
下载2个网页,并存为00002.html
下载3个网页,并存为00003.html
下载4个网页,并存为00004.html
下载5个网页,并存为00005.html
下载6个网页,并存为00006.html
下载7个网页,并存为00007.html
下载8个网页,并存为00008.html
下载9个网页,并存为00009.html
>>> ================================ RESTART ================================
>>>
input url 去除最后的数字
begin page
endpage
下载1个网页,并存为G:/New Knowledge/practice/python/tmp/00001.html
下载2个网页,并存为G:/New Knowledge/practice/python/tmp/00002.html
下载3个网页,并存为G:/New Knowledge/practice/python/tmp/00003.html
下载4个网页,并存为G:/New Knowledge/practice/python/tmp/00004.html
下载5个网页,并存为G:/New Knowledge/practice/python/tmp/00005.html
下载6个网页,并存为G:/New Knowledge/practice/python/tmp/00006.html
下载7个网页,并存为G:/New Knowledge/practice/python/tmp/00007.html
下载8个网页,并存为G:/New Knowledge/practice/python/tmp/00008.html
下载9个网页,并存为G:/New Knowledge/practice/python/tmp/00009.html
下载10个网页,并存为G:/New Knowledge/practice/python/tmp/00010.html
相关文章推荐
- python 网络爬虫
- HTTP 状态消息
- TCP IP三次握手
- TCP/IP模型及与OSI参考模型的对应关系
- udp协议和tcp协议的区别
- HTTP头的Expires与Cache-control
- 301、404、200、304、500HTTP状态
- Linux网络编程: 原始套接字
- [原创]一点一滴学习网络游戏开发,第二章节:框架设计初步
- 最简单的bug 管理网站http://easybug.net/!
- C# 网络编程之通过豆瓣API获取书籍信息
- Apache Http Server学习笔记
- 什么是lo本地回环?
- 网络时代
- 网络安全
- 网络游戏同步
- 网络游戏同步法则
- 测试UNIX网络编程第一个程序
- 网络
- vmware虚拟机与主机的三种通信方式