您的位置：首页 > 编程语言 > Python开发

python Scrapy 框架做爬虫 ——入门地图

2014-08-03 10:49 656 查看

写在前面：

因为网络上关于Scrapy的使用经验已经非常多，本文无意重复或复制，只做思路导引和资源索引之用。如果你一头扎进来正毫无头绪，那么恭喜你，你找到了路标！

非常感谢Young-hz所写的Scrapy框架探索系列博客，在这里主要引用了他的博客链接。

一，初识爬虫

因为一个兴趣项目，需要爬取网上的数据，因而接触学习了网络爬虫。爬虫的思路非常清晰：

按照链接下载网页-->提取兴趣内容-->提取需要访问的链接

重复直到爬完全部内容。大家可以想到，要实现以上步骤是多么简单的事情。但是任何简单问题想要做到令人满意（鲁棒、细致周到）总是要做大量的工作。因而一个设计合理，功能全面，节省我们很多时间的框架是非常必要的。

我想这就是Scrapy框架被广泛应用的原因。

二，Scrapy框架

框架介绍参照官网，但是作为初步了解的话，它的消息有点多和乱，这篇文章更推荐大家阅读入门。

入门文章：/article/1378200.html

到目前为止，大家应该知道，什么是Scrapy，以及它应该可以做什么事情。不用了解任何代码，接下来把环境搭好吧！

linux系统下安装Scrapy上述文章都已经讲到，windows下安装Scrapy这里有非常详细的步骤。

Windows下安装Scrapy：/article/4598394.html

三，跑第一个爬虫-->tutorial

搭建好环境，对Scrapy有了初步印象，下面就要亲自试一下了。官网的tutorial是非常不错，按照这篇比官网还详细的文章跑一下tutorial吧。

第一个Scrapy爬虫：/article/1387696.html

大家现在知道什么是item，spider该定义哪些部分，以及XPath是什么东西了。但是pipeline是什么还没用过，setting文件也没有碰。下面这篇文章比第一个爬虫多了一点点东西，做下来应该可以了解到全部文件的用途了。

进阶的第一个爬虫：/article/1378199.html

四，彻底认清Scrapy

明明几十行搞定的功能，为什么要搞一堆文件来做呢？这篇文章很好的介绍了Scrapy框架，详细介绍了Scrapy的数据流。

Scrapy框架核心架构:/article/1378198.html

其实到目前的程度，大家已经可以扔掉拐杖自己走路了。读官网的文档或者按照自己的需要在网上查找问题解决办法。下面我把有用的文章列出来，以备不时之需。

xpath教程：http://www.w3school.com.cn/xpath/

中文保存：/article/1378197.html

爬取多网页：/article/1378196.html

通用爬虫CrawlSpider：/article/1378196.html

防止爬虫被ban：/article/1378194.html

希望大家因为我的文章，省掉了很多上手Scrapy的时间，good luck 。

这是我们项目的爬虫，供大家参考。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航