您的位置:首页 > 其它

一个简单的爬虫douban_list_spider.py

2015-07-21 10:23 267 查看
源码在此:

https://github.com/CuiBinghua/douban_list_spider/blob/master/douban_list_spider.py


1. 简介

douban_list_spider.py是一个简单的爬虫,可以根据关键字抓取豆瓣电影、豆瓣读书或者豆瓣音乐的条目信息.


2.
Python环境

本人的Python版本为:2.6.6

另外还需要安装必要的Python插件:

$ easy_install requests

$ easy_install BeautifulSoup4


3.
执行抓取

首先对douban_list_spider.py中的变量object、tag_list和page_num进行配置。

然后执行命令即可:

$ python douban_list_spider.py

最后,就可以在相同目录下查看到输出文件movie_list.txt、book_list.txt或者music_list.txt了。


4.
参考资料

http://plough-man.com/?p=379

https://github.com/plough/myCrawler/blob/master/doubanBook/book_list_spider.py
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: