一个简单的爬虫douban_list_spider.py
2015-07-21 10:23
267 查看
源码在此:
https://github.com/CuiBinghua/douban_list_spider/blob/master/douban_list_spider.py
douban_list_spider.py是一个简单的爬虫,可以根据关键字抓取豆瓣电影、豆瓣读书或者豆瓣音乐的条目信息.
本人的Python版本为:2.6.6
另外还需要安装必要的Python插件:
$ easy_install requests
$ easy_install BeautifulSoup4
首先对douban_list_spider.py中的变量object、tag_list和page_num进行配置。
然后执行命令即可:
$ python douban_list_spider.py
最后,就可以在相同目录下查看到输出文件movie_list.txt、book_list.txt或者music_list.txt了。
http://plough-man.com/?p=379
https://github.com/plough/myCrawler/blob/master/doubanBook/book_list_spider.py
https://github.com/CuiBinghua/douban_list_spider/blob/master/douban_list_spider.py
1. 简介
douban_list_spider.py是一个简单的爬虫,可以根据关键字抓取豆瓣电影、豆瓣读书或者豆瓣音乐的条目信息.
2.
Python环境
本人的Python版本为:2.6.6另外还需要安装必要的Python插件:
$ easy_install requests
$ easy_install BeautifulSoup4
3.
执行抓取
首先对douban_list_spider.py中的变量object、tag_list和page_num进行配置。然后执行命令即可:
$ python douban_list_spider.py
最后,就可以在相同目录下查看到输出文件movie_list.txt、book_list.txt或者music_list.txt了。
4.
参考资料
http://plough-man.com/?p=379https://github.com/plough/myCrawler/blob/master/doubanBook/book_list_spider.py
相关文章推荐
- 百炼-2815-城堡问题-DFS
- 移动混合应用Hybrid App开发实战
- OC 类目(category) 延展(extension) 协议(protocol)(摘抄)
- 黑马66期android学习笔记01-手机制式
- RabbitMQ第一篇——初识RabbitMQ,简单的消息发送和接收
- 归并排序
- ftruncate(改变文件大小)
- java 解决中文乱码
- C/c++几个预定义的宏:__DATE__,__TIME__,__FILE__,__LINE__
- 基于功能的数据库分类:联机事务处理和决策支持系统数据库
- 黑马程序员----JAVA基础----IO流_1
- linux 系统目录
- ubuntu 14.04各种源
- 关于向Android项目中的drawable下添加图片却无法使用的问题
- map的用法
- 素数线性筛选
- 北京数字认证股份有限公司-数字证书认证管理解决方案
- android常用对话框封装
- SQLServer 数据库镜像+复制切换方案
- 在ubuntu下安装sourceinsight