python Scrapy 框架做爬虫 ——入门地图
2014-08-03 10:49
656 查看
写在前面:
因为网络上关于Scrapy的使用经验已经非常多,本文无意重复或复制,只做思路导引和资源索引之用。如果你一头扎进来正毫无头绪,那么恭喜你,你找到了路标!
非常感谢Young-hz所写的Scrapy框架探索系列博客,在这里主要引用了他的博客链接。
一,初识爬虫
因为一个兴趣项目,需要爬取网上的数据,因而接触学习了网络爬虫。爬虫的思路非常清晰:
按照链接下载网页-->提取兴趣内容-->提取需要访问的链接
重复直到爬完全部内容。大家可以想到,要实现以上步骤是多么简单的事情。但是任何简单问题想要做到令人满意(鲁棒、细致周到)总是要做大量的工作。因而一个设计合理,功能全面,节省我们很多时间的框架是非常必要的。
我想这就是Scrapy框架被广泛应用的原因。
二,Scrapy框架
框架介绍参照官网,但是作为初步了解的话,它的消息有点多和乱,这篇文章更推荐大家阅读入门。
入门文章:/article/1378200.html
到目前为止,大家应该知道,什么是Scrapy,以及它应该可以做什么事情。不用了解任何代码,接下来把环境搭好吧!
linux系统下安装Scrapy上述文章都已经讲到,windows下安装Scrapy这里有非常详细的步骤。
Windows下安装Scrapy:/article/4598394.html
三,跑第一个爬虫-->tutorial
搭建好环境,对Scrapy有了初步印象,下面就要亲自试一下了。官网的tutorial是非常不错,按照这篇比官网还详细的文章跑一下tutorial吧。
第一个Scrapy爬虫:/article/1387696.html
大家现在知道什么是item,spider该定义哪些部分,以及XPath是什么东西了。但是pipeline是什么还没用过,setting文件也没有碰。下面这篇文章比第一个爬虫多了一点点东西,做下来应该可以了解到全部文件的用途了。
进阶的第一个爬虫:/article/1378199.html
四,彻底认清Scrapy
明明几十行搞定的功能,为什么要搞一堆文件来做呢?这篇文章很好的介绍了Scrapy框架,详细介绍了Scrapy的数据流。
Scrapy框架核心架构:/article/1378198.html
其实到目前的程度,大家已经可以扔掉拐杖自己走路了。读官网的文档或者按照自己的需要在网上查找问题解决办法。下面我把有用的文章列出来,以备不时之需。
xpath教程:http://www.w3school.com.cn/xpath/
中文保存:/article/1378197.html
爬取多网页:/article/1378196.html
通用爬虫CrawlSpider:/article/1378196.html
防止爬虫被ban:/article/1378194.html
希望大家因为我的文章,省掉了很多上手Scrapy的时间,good luck 。
这是我们项目的爬虫,供大家参考。
因为网络上关于Scrapy的使用经验已经非常多,本文无意重复或复制,只做思路导引和资源索引之用。如果你一头扎进来正毫无头绪,那么恭喜你,你找到了路标!
非常感谢Young-hz所写的Scrapy框架探索系列博客,在这里主要引用了他的博客链接。
一,初识爬虫
因为一个兴趣项目,需要爬取网上的数据,因而接触学习了网络爬虫。爬虫的思路非常清晰:
按照链接下载网页-->提取兴趣内容-->提取需要访问的链接
重复直到爬完全部内容。大家可以想到,要实现以上步骤是多么简单的事情。但是任何简单问题想要做到令人满意(鲁棒、细致周到)总是要做大量的工作。因而一个设计合理,功能全面,节省我们很多时间的框架是非常必要的。
我想这就是Scrapy框架被广泛应用的原因。
二,Scrapy框架
框架介绍参照官网,但是作为初步了解的话,它的消息有点多和乱,这篇文章更推荐大家阅读入门。
入门文章:/article/1378200.html
到目前为止,大家应该知道,什么是Scrapy,以及它应该可以做什么事情。不用了解任何代码,接下来把环境搭好吧!
linux系统下安装Scrapy上述文章都已经讲到,windows下安装Scrapy这里有非常详细的步骤。
Windows下安装Scrapy:/article/4598394.html
三,跑第一个爬虫-->tutorial
搭建好环境,对Scrapy有了初步印象,下面就要亲自试一下了。官网的tutorial是非常不错,按照这篇比官网还详细的文章跑一下tutorial吧。
第一个Scrapy爬虫:/article/1387696.html
大家现在知道什么是item,spider该定义哪些部分,以及XPath是什么东西了。但是pipeline是什么还没用过,setting文件也没有碰。下面这篇文章比第一个爬虫多了一点点东西,做下来应该可以了解到全部文件的用途了。
进阶的第一个爬虫:/article/1378199.html
四,彻底认清Scrapy
明明几十行搞定的功能,为什么要搞一堆文件来做呢?这篇文章很好的介绍了Scrapy框架,详细介绍了Scrapy的数据流。
Scrapy框架核心架构:/article/1378198.html
其实到目前的程度,大家已经可以扔掉拐杖自己走路了。读官网的文档或者按照自己的需要在网上查找问题解决办法。下面我把有用的文章列出来,以备不时之需。
xpath教程:http://www.w3school.com.cn/xpath/
中文保存:/article/1378197.html
爬取多网页:/article/1378196.html
通用爬虫CrawlSpider:/article/1378196.html
防止爬虫被ban:/article/1378194.html
希望大家因为我的文章,省掉了很多上手Scrapy的时间,good luck 。
这是我们项目的爬虫,供大家参考。
相关文章推荐
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- Python爬虫从入门到放弃(十二)之 Scrapy框架的架构和原理
- Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- Python的爬虫程序编写框架Scrapy入门学习教程
- Python爬虫从入门到放弃(十五)之 Scrapy框架中Spiders用法
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- Python爬虫从入门到放弃(十六)之 Scrapy框架中Item Pipeline用法
- Python爬虫从入门到放弃(十二)之 Scrapy框架的架构和原理
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- python——爬虫学习——Scrapy爬虫框架入门-(6)
- Python的爬虫程序编写框架Scrapy入门学习教程
- python爬虫由浅入深12---scrapy框架的基础入门
- Python爬虫框架Scrapy教程(1)—入门
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
- Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解
- Python爬虫从入门到放弃(十六)之 Scrapy框架中Item Pipeline用法
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程