python实现下载韩寒博客中的所有文章,在本地存储
2017-05-11 15:54
746 查看
# -*- coding:utf-8 -*- # import urllib,requests import bs4,os,re urlList = [] urlListZuiHou = [] urlPurpose = 'http://blog.sina.com.cn/twocold' #下载韩寒博客网页 res = requests.get(urlPurpose) #检查是否下载成功 try: res.raise_for_status() except Exception as exc: print('There was a problem:%s'%(exc)) #通过正则表达式在下载网页中匹配博文地址存放在urlList列表中 patternUrl = r'http://blog.sina\.com\.cn/s/blog.+\.html' regex = re.compile(patternUrl) urlList = re.findall(regex,res.text) #去掉重复的URl路径项,存放在列表urlListZuiHou中 for i in range(0,len(urlList),4): urlListZuiHou.append(urlList[i]) #循环遍历所有博客地址,并下载保存到本地文件 for i in range(len(urlListZuiHou)): resBlog = urllib.request.urlopen(urlListZuiHou[i]) #转化下载文件的编码格式utf-8 html = str(resBlog.read(),'utf-8') #创建BeautifulSoup对象,并查找匹配博客标题 bs4BOne = bs4.BeautifulSoup(html) bs4BlogBiaoTi = bs4BOne.select('title') #以博客标题为文件名称,将每一篇博客保存为html文件 openBlogFileHTML = open('C:\\Users\\Nick\\Desktop\\python\\drawing\\2\\quiz\\'+str(bs4BlogBiaoTi[0].getText())+'.html','at') openBlogFileHTML.write(html) openBlogFileHTML.close()
相关文章推荐
- Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件
- 分享制作精良的知识管理系统 配置SQL Server文档数据库 完美实现博客文章的的下载,存储和浏览
- python_爬取博客文章下载到本地
- CSDN博客专栏文章批量下载脚本[python实现]
- Python网络爬虫实训:如何下载韩寒博客文章
- CSDN博客专栏文章批量下载脚本[python实现]
- Python爬虫——下载韩寒博客文章
- 【Python】多线程下载韩寒博客文章
- 【python】爬虫2——下载亦舒博客首页所有文章
- 【python】爬虫1——下载博客文章
- python实现博客文章爬虫示例
- python抓取月光博客的所有文章并且按照标题分词存入mongodb中
- python实现下载指定网址所有图片的方法
- python实现下载指定网址所有图片的方法
- 看我如何下载韩寒博客文章笔记
- 基于python3,抓取韩寒博客文章
- 用TreeView控件实现资源管理器(显示本地硬盘下所有文件夹和文件,并可以浏览图片)(示例代码下载)
- [Python下载CSDN博客]1. 简单实现(二)
- 一个简单的python网络爬虫程序(下载博客文章)
- [Python下载CSDN博客]1. 简单实现(一)