您的位置：首页 > 编程语言 > Python开发

python爬虫介绍

2016-02-15 16:03 218 查看

参考链接：

1. 授人以渔的文章，里面讲到爬虫一般怎么做，分布式的时候怎么办等：http://www.zhihu.com/question/20899988

2. scrapy的文章，介绍了怎么用 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html

3. urllib的文章，比较粗鲁的方式 /article/7093271.html

主要是上面的文章，写下大体的感觉：

urllib的方式，直接读取这个url下的东西，然后进行解析，根据正则表达式等来获取想要的字段

scrapy，一个爬虫的python项目，会封装好很多东西，比如item，比如Spider（爬虫的起始页面，操作等），比如Selector（选择那一段的内容进行爬，类似封装好的正则表达式，更加基于html的结构进行处理）等

如果到分布式的时候，可以一台做master，用于记录哪些网页已经爬取了（匹配太大量，考虑用bloom filter）、分配哪个网址给下面的slave来处理等。master存储时候，可以用redis（Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API）。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航