您的位置:首页 > 编程语言 > Python开发

基于Python实现的爬虫源码(1)

2016-02-19 17:41 696 查看
# -*- coding: utf-8 -*-

import string,urllib2
import os

import shutil

#os.rmdir("baidu_file")
path = os.getcwd()

#os.removedirs(path + '//baidu_file')

#shutil.copytree(ResDir,DesDir)#拷贝

Dir = path + '//baidu_file'
#如果有这个文件夹先删除
if os.path.exists(Dir) == True :
shutil.rmtree(Dir)#删除文件夹

os.mkdir("baidu_file")#新建文件夹
os.chdir("baidu_file")#改变当前目录

def baidu(url,start_page,end_page):
for i in range(start_page,end_page + 1):
sName = string.zfill(i,5) + ".html"
f = open(sName,'w+')
m = urllib2.urlopen(url+str(i)).read()
f.write(m)#将字符串写入文件,没有返回值。
f.close()

print("请输入贴吧地址")
bdurl = "http://tieba.baidu.com/p/2296017831?pn="
start_page = 1;
end_page = 5

baidu(bdurl,start_page,end_page)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: