您的位置：首页 > 其它

爬虫之下载博客目录文章

2014-09-23 21:18 239 查看

根据源代码获得每条博客的链接地址，

#!/usr/bin/env python
#codiing:utf-8

import time
import urllib
import webbrowser as web
urlstr = "http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html"          #目录地址
content = urllib.urlopen(urlstr).read()                        #得到地址的源代码

title = content.find(r'<a title=', 0)                     #找到链接地址
href = content.find(r'href', title)
html = content.find(r'.html', href)

i = 0
url = ['']*40;
while title != -1 and href != -1 and html != -1 and i < 40:   #得到所有的链接地址
url[i] = content[href + 6: html + 5]
title = content.find(r'<a title=',html)
href = content.find(r'href', title)
html = content.find(r'.html',href)
i = i + 1
i = 1
for g in url:                    
con = urllib.urlopen(g).read()    #读取链接地址的源码
open(r'/home/yuan/pyth/' + str(i) + '.html', 'w+').write(con)    #源码内容写入到本地上
time.sleep(15)                                                  
i = i + 1

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航