使用Python urllib2下载CSDN博客列表到本地
2015-04-14 13:36
761 查看
# -*- coding: utf-8 -*- import string, urllib2 # 下载CSDN博客列表 def load_csdn(url, page): name = string.zfill(page, 5) + '.html' print '正在下载' + str(page) + '个页面,并存储其为' + name f = open(name, 'w+') url = url + '/' + str(page) print url # 伪装成浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.101 Safari/537.36' } req = urllib2.Request(url = url,headers = headers) m = urllib2.urlopen(req).read() f.write(m) f.close() # http://blog.csdn.net/Geek_ymv/article/list/2 url = str(raw_input(u'请输入地址:')) page = int(raw_input(u'请输入第几页:')) # 下载网页到本地 load_csdn(url, page)
相关文章推荐
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(一)
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(二)
- [Python下载CSDN博客]4. V3版本_使用正则表达式分析HTML(一)
- [Python下载CSDN博客]4. V3版本_使用正则表达式分析HTML(二)
- Web Scraping with Python: 使用 Python 下载 CSDN 博客图片
- 使用python抓取csdn博客访问量并保存在sqlite3数据库中
- 使用python统计csdn博客一段时间内的访问量
- python 使用urllib2下载文件
- Web Scraping with Python: 使用 Python 爬 CSDN 博客
- Web Scraping with Python:使用 Python 导出 CSDN 博客全部文章(保留样式)和附带图片
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- 使用Jsoup 抓取本人CSDN博客文章列表的数据
- Python登录并获取CSDN博客所有文章列表代码实例
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用bs4,beautifulsoup模块
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用正则re
- Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件
- Python登录并获取CSDN博客所有文章列表
- python 使用 urllib.urlretrieve()下载网络图片,在本地打开提示文件损坏无法打开
- python实现下载韩寒博客中的所有文章,在本地存储
- 使用python将远程图片下载到本地