Scrapy followlinks总结
2017-07-16 01:03
239 查看
在写scrapy的spider类的parse方法的时候,有些链接需要提取出来继续爬取,这里scrapy提供了一些方法可以方便的实现这个功能,总结如下:
假设我们的目标a标签是target_a
方法1:
方法2
方法2变种1
方法2变种2
方法2:不用获取到绝对的url,使用follow方法会自动帮我们实现
方法2变种1:不用获取提取url字符串,只需要传入href这个selector
方法2变种2:不用获取href这个selector,传递一个a的selector,follow方法自动会提取href
注意传入的对象只能是str或selector,不能是SelectorList
假设我们的目标a标签是target_a
方法1:
next_page = target_a.css('::attr(href)').extract_first() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse)
方法2
next_page = target_a.css('::attr(href)').extract_first() if next_page is not None: yield response.follow(next_page, callback=self.parse)
方法2变种1
next_page = target_a.css('::attr(href)') if next_page is not None: yield response.follow(next_page[0], callback=self.parse)
方法2变种2
if target_a is not None: yield response.follow(target_a, callback=self.parse)
解释
方法1:直接获取到下一页的绝对url,yield一个新Request对象方法2:不用获取到绝对的url,使用follow方法会自动帮我们实现
方法2变种1:不用获取提取url字符串,只需要传入href这个selector
方法2变种2:不用获取href这个selector,传递一个a的selector,follow方法自动会提取href
注意传入的对象只能是str或selector,不能是SelectorList
相关文章推荐
- 安装Scrapy过程中遇到的几个问题总结
- python scrapy爬虫框架概念介绍(个人理解总结为一张图)
- scrapy爬虫防ban策略总结
- Scrapy框架学习 - 常用的下载器中间件用法总结
- 爬虫之Scrapy框架知识总结
- scrapy文档(教程)学习遇到的问题总结
- python安装scrapy小问题总结
- 调试总结 scrapy
- scrapy:使用response.follow()方法时出现AttributeError: 'HtmlResponse' object has no attribute 'follow'
- python爬虫框架scrapy思路总结
- Python爬虫框架Scrapy常用命令总结
- Scrapy安装过程问题总结
- Scrapy抓取网页相关问题解决以及注意事项总结
- python_scrapy爬虫_jieba分词_数据可视化 阶段总结报告
- scrapy常用的指令总结
- Scrapy复习总结
- scrapy安装出错总结
- 关于scrapy网络爬虫的xpath书写经验总结
- 安装Scrapy过程中的错误总结及学习方法
- 20180310scrapy框架学习笔记总结