您的位置:首页 > 其它

爬虫之下载博客目录文章

2014-09-23 21:18 239 查看
根据源代码获得每条博客的链接地址,

#!/usr/bin/env python
#codiing:utf-8

import time
import urllib
import webbrowser as web
urlstr = "http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html"          #目录地址
content = urllib.urlopen(urlstr).read()                        #得到地址的源代码

title = content.find(r'<a title=', 0)                     #找到链接地址
href = content.find(r'href', title)
html = content.find(r'.html', href)

i = 0
url = ['']*40;
while title != -1 and href != -1 and html != -1 and i < 40:   #得到所有的链接地址
url[i] = content[href + 6: html + 5]
title = content.find(r'<a title=',html)
href = content.find(r'href', title)
html = content.find(r'.html',href)
i = i + 1
i = 1
for g in url:                    
con = urllib.urlopen(g).read()    #读取链接地址的源码
open(r'/home/yuan/pyth/' + str(i) + '.html', 'w+').write(con)    #源码内容写入到本地上
time.sleep(15)                                                  
i = i + 1
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: