基于python的爬虫
2016-01-25 22:49
706 查看
本次初学,参考的资料见:http://edu.51cto.com/index.php?do=lession&id=12393
功能主要是抓取韩寒的博客内容,以及保存网址到hanhan的文件夹中,运行环境实在linux下的。
网站见:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
具体代码如何:
运行结果如下:
本次初学,参考的资料见:http://edu.51cto.com/index.php?do=lession&id=12393
功能主要是抓取韩寒的博客内容,以及保存网址到hanhan的文件夹中,运行环境实在linux下的。
网站见:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
具体代码如何:
<span style="font-size:18px;">#!/usr/bin/env python #coding utf-8 import urllib import time url=['']*60 con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read() title = con.find(r'<a title=') href = con.find(r'href=',title) html = con.find(r'.html',href) i=0 while title !=-1 and href!=-1 and html !=-1 and i<60: url[i]=con[href+6:html+5] print(url[i]) title = con.find(r'<a title=',html) href = con.find(r'href=',title) html = con.find(r'.html',href) i=i+1 else: print('find end!') j=0 while j<50: content = urllib.urlopen(url[j]).read() open(r'hanhan/'+url[j][-26:], 'w+').write(content) print('downloading',url[j]) j=j+1; time.sleep(15) else: print('write article end!') </span>
运行结果如下:
相关文章推荐
- python numpy的使用
- Python分词统计
- Python遥感数据主成分分析
- python打印等腰三角形
- 让python在hadoop上跑起来
- python下文件的批量复制
- Python基本代码
- Python -- 装饰器
- python小白-day4迭代器和生成器
- 《笨办法学Python》 第23课手记
- 【python脚本收集】全角半角转换
- python,numpy matplotlib WIN7 64位 安装教程
- Cisco Syslog 处理
- 【Python】抓取拉勾网全国Python的招聘信息
- python调试
- python 条件判断与循环
- python数字图像处理(15):霍夫线变换
- python 文件操作
- Python学习之--python概要
- python collections 系列