python爬虫实现(使用线程池)
2013-02-28 12:39
549 查看
代码在这里,注释够详细,应该很容看懂吧。(注,程序里面有坑。。。直接用,不看代码小心中招,嘿嘿。。。)
https://github.com/5crat/spider.py
关于该爬虫
程序运行示例:
Spider.py -u url -d depth
Url,depth 为必需参数,其他为可选参数,日志文件默认当前目录,名字:spider.log,日志等级默 认为3。数据库为:data.sql,也是当前目录。
关键字是匹配源码中标签<meta>的content属性的值
自检模块只是检查网络连接,和数据库连接。
winXP sp3 和 ubuntu12.10测试爬取www.baidu.com两级深度均能正常运行
目前自知的缺点:
对于命令参数,没有仔细检查分析,如:spider -u s -d 2程序一样会运行,虽然这样不对。
主要参考:
Python爬虫
http://bbs.chinaunix.net/thread-3689276-1-1.html
对Python线程池进行详细说明
http://developer.51cto.com/art/201002/185290.htm
BeautifulSoup学习笔记
http://pqcc.iteye.com/blog/627481
python之sqlite3使用详解 http://anony3721.blog.163.com/blog/static/5119742010716104442536/ Python模块学习
http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.html
https://github.com/5crat/spider.py
关于该爬虫
程序运行示例:
Spider.py -u url -d depth
Url,depth 为必需参数,其他为可选参数,日志文件默认当前目录,名字:spider.log,日志等级默 认为3。数据库为:data.sql,也是当前目录。
关键字是匹配源码中标签<meta>的content属性的值
自检模块只是检查网络连接,和数据库连接。
winXP sp3 和 ubuntu12.10测试爬取www.baidu.com两级深度均能正常运行
目前自知的缺点:
对于命令参数,没有仔细检查分析,如:spider -u s -d 2程序一样会运行,虽然这样不对。
主要参考:
Python爬虫
http://bbs.chinaunix.net/thread-3689276-1-1.html
对Python线程池进行详细说明
http://developer.51cto.com/art/201002/185290.htm
BeautifulSoup学习笔记
http://pqcc.iteye.com/blog/627481
python之sqlite3使用详解 http://anony3721.blog.163.com/blog/static/5119742010716104442536/ Python模块学习
http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.html
相关文章推荐
- python爬虫实现(使用线程池)
- python使用tornado实现简单爬虫
- php与python实现的线程池多线程爬虫功能示例
- 简单爬虫python实现02——BeautifulSoup的使用
- 使用Python的BeautifulSoup库实现一个可以爬取1000条百度百科数据的爬虫
- Python 爬虫使用布隆过滤器实现url去重
- [爬虫入门]Python中使用scrapy框架实现图片爬取
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- 使用python实现简单爬虫
- 使用python爬虫实现网络股票信息爬取的demo
- python使用rabbitmq实现网络爬虫示例
- python3实现网络爬虫(3)--BeautifulSoup使用(2)
- Python Scrapy爬虫入门 - 使用Crontab实现Scrapy爬虫的定时执行
- python3实现网络爬虫(4)--BeautifulSoup使用(3)
- python线程池实现网络爬虫
- 使用python实现简单爬虫
- 使用python实现简单的百度百科词条爬虫
- [iuud8]新手使用python实现爬虫的初始记录
- python使用rabbitmq实现网络爬虫示例
- Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码