【python】爬虫1——下载博客文章
2014-07-22 14:45
513 查看
#! /usr/bin/env python #coding=utf-8 #<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a> from urllib import urlopen str0 = 'blabla<a title="《论电影的七个元素》——关于我对电影的一些看法以及《后会无期》的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>' title = str0.find('<a title') print title #得到<a title所在位置为6 href = str0.find(r'href=')<span style="font-family: Arial, Helvetica, sans-serif;"> #得到href所在位置为142</span> print href html = str0.find(r'.html')<span style="font-family: Arial, Helvetica, sans-serif;"> #得到html所在位置为142</span> print html url = str0[href+6:html+5] #得到url:http://blog.sina.com.cn/s/blog_4701280b0102eo83.html print url content = urlopen(url).read() #print content filename = url[-26:] #得到文件名blog_4701280b0102eo83.html print filename open(filename,'w').write(content)1.查找url
相关文章推荐
- 【python】爬虫2——下载亦舒博客首页所有文章
- Python爬虫——下载韩寒博客文章
- Python网络爬虫实训:如何下载韩寒博客文章
- 【python】爬虫3——抓取亦舒博客所有文章
- python爬虫之python2.7.8抓取csdn博客文章
- python_爬取博客文章下载到本地
- python 爬虫 爬取序列博客文章列表
- python爬虫代码-CSDN博客下载
- 爬虫之下载博客目录文章
- Python 爬虫爬取指定博客的所有文章
- Hello Python!用python写一个抓取CSDN博客文章的简单爬虫
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
- python实现博客文章爬虫示例
- 【Python】多线程下载韩寒博客文章
- CSDN博客专栏文章批量下载脚本[python实现]
- CSDN博客专栏文章批量下载脚本[python实现]
- 一个简单的python网络爬虫程序(下载博客文章)
- 利用Python编写网络爬虫下载文章
- python下载QQ空间的博客文章
- python 爬虫 CSDN博客下载-改进版