您的位置:首页 > 编程语言 > Python开发

python Scrapy 框架做爬虫 ——入门地图

2014-08-03 10:49 656 查看
写在前面:

因为网络上关于Scrapy的使用经验已经非常多,本文无意重复或复制,只做思路导引和资源索引之用。如果你一头扎进来正毫无头绪,那么恭喜你,你找到了路标!

非常感谢Young-hz所写的Scrapy框架探索系列博客,在这里主要引用了他的博客链接。

一,初识爬虫

因为一个兴趣项目,需要爬取网上的数据,因而接触学习了网络爬虫。爬虫的思路非常清晰:

按照链接下载网页-->提取兴趣内容-->提取需要访问的链接

重复直到爬完全部内容。大家可以想到,要实现以上步骤是多么简单的事情。但是任何简单问题想要做到令人满意(鲁棒、细致周到)总是要做大量的工作。因而一个设计合理,功能全面,节省我们很多时间的框架是非常必要的。

我想这就是Scrapy框架被广泛应用的原因。

二,Scrapy框架

框架介绍参照官网,但是作为初步了解的话,它的消息有点多和乱,这篇文章更推荐大家阅读入门。

入门文章:/article/1378200.html

到目前为止,大家应该知道,什么是Scrapy,以及它应该可以做什么事情。不用了解任何代码,接下来把环境搭好吧!

linux系统下安装Scrapy上述文章都已经讲到,windows下安装Scrapy这里有非常详细的步骤。

Windows下安装Scrapy:/article/4598394.html

三,跑第一个爬虫-->tutorial

搭建好环境,对Scrapy有了初步印象,下面就要亲自试一下了。官网的tutorial是非常不错,按照这篇比官网还详细的文章跑一下tutorial吧。

第一个Scrapy爬虫:/article/1387696.html

大家现在知道什么是item,spider该定义哪些部分,以及XPath是什么东西了。但是pipeline是什么还没用过,setting文件也没有碰。下面这篇文章比第一个爬虫多了一点点东西,做下来应该可以了解到全部文件的用途了。

进阶的第一个爬虫:/article/1378199.html

四,彻底认清Scrapy

明明几十行搞定的功能,为什么要搞一堆文件来做呢?这篇文章很好的介绍了Scrapy框架,详细介绍了Scrapy的数据流。

Scrapy框架核心架构:/article/1378198.html

其实到目前的程度,大家已经可以扔掉拐杖自己走路了。读官网的文档或者按照自己的需要在网上查找问题解决办法。下面我把有用的文章列出来,以备不时之需。

xpath教程:http://www.w3school.com.cn/xpath/

中文保存:/article/1378197.html

爬取多网页:/article/1378196.html

通用爬虫CrawlSpider:/article/1378196.html

防止爬虫被ban:/article/1378194.html

希望大家因为我的文章,省掉了很多上手Scrapy的时间,good luck 。

这是我们项目的爬虫,供大家参考。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐