scrapy学习--内置Spiders简介
2015-10-02 10:01
225 查看
有段时间没有学习Scrapy了,工作很紧所以时间大部分都投入到了android的学习上了。
今天有点时间继续学习Scrapy,接上一篇scrapy学习--Spiders继续学习内置Spiders。
鉴于xml和html迭代器需要先读取所有的DOM再进行分析而引起的性能问题,一般推荐使用iternodes。
Sitemaps 来发现爬取的URL。
其支持嵌套的sitemap,并能从
robots.txt 中获取sitemap的url。
每种内置Spider都与基本的Spider用法类似,只是针对不同方面的问题进行了封装,在使用的时候直接继承就可以使用。
具体的详情参考官网相关手册http://doc.scrapy.org/en/latest/topics/spiders.html
今天有点时间继续学习Scrapy,接上一篇scrapy学习--Spiders继续学习内置Spiders。
1.XMLFeedSpider
XMLFeedSpider被设计用于通过迭代各个节点来分析XML源(XML feed)。迭代器可以从iternodes、xml、html选择。鉴于xml和html迭代器需要先读取所有的DOM再进行分析而引起的性能问题,一般推荐使用iternodes。
2.CSVFeedSpider
该spider除了其按行遍历而不是节点之外其他和XMLFeedSpider十分类似。而其在每次迭代时调用的是parse_row()。
3.SitemapSpider
SitemapSpider使您爬取网站时可以通过Sitemaps 来发现爬取的URL。
其支持嵌套的sitemap,并能从
robots.txt 中获取sitemap的url。
每种内置Spider都与基本的Spider用法类似,只是针对不同方面的问题进行了封装,在使用的时候直接继承就可以使用。
具体的详情参考官网相关手册http://doc.scrapy.org/en/latest/topics/spiders.html
相关文章推荐
- 买股票最大利润
- 补码
- 【IOS 开发学习总结-OC-28】★objective-c之foundation 框架——集合类的综述
- this关键字与super关键字
- kmp算法原理及实现
- waitpid(or wait)和SIGCHILD的关系 http://blog.csdn.net/liuxingen/article/details/38350347
- 【UML】用例图Use Case diagram
- win8搜索不到wifi怎么办?windows8搜索不到无线网络解决方法图解
- Git 从远程库克隆
- mysql、添加和删除用户、添加权限
- Project Euler 76:Counting summations
- php的迭代器
- Lock and Thread in JAVA
- ReentrantLock
- 程序员可能常犯的 6 个错误
- Word Break II
- Task-based Asynchronous Operation in WCF z
- task可声明参数 z
- IOS面试题汇总(中英文)
- String构造函数originalValue.length>size 它发生