您的位置:首页 > 编程语言 > Python开发

【python】爬虫1——下载博客文章

2014-07-22 14:45 513 查看
#! /usr/bin/env python
#coding=utf-8

#<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

from urllib import urlopen
str0 = 'blabla<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'
title = str0.find('<a title')
print title                           #得到<a title所在位置为6
href = str0.find(r'href=')<span style="font-family: Arial, Helvetica, sans-serif;">            #得到href所在位置为142</span>
print href
html = str0.find(r'.html')<span style="font-family: Arial, Helvetica, sans-serif;">          #得到html所在位置为142</span>
print html

url = str0[href+6:html+5]             #得到url:http://blog.sina.com.cn/s/blog_4701280b0102eo83.html
print url

content = urlopen(url).read()
#print content
filename = url[-26:]            #得到文件名blog_4701280b0102eo83.html
print filename
open(filename,'w').write(content)
1.查找url
                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: