您的位置:首页 > 其它

学习笔记(2019-5-8)

2019-05-08 15:08 78 查看

昨天在在线教育学院里看了“数据分析基础:统计学”和“大数据概论”两门课。课程的质量可以说是惨不忍睹了。要么视频声音低到听不清,要么只能听得清一些呼隆呼隆的杂音,此外,因为这些个视频是学员录屏所得,并且还没有经过任何视频剪辑处理,总体的体验可以说是很差了。

虽说这个视频课的体验很差,但他本身的内容还是有很大价值的。作为数据人,理应主动去寻找更多此类的课程进行学习,提升自我。

学了一半,跑去看scrapy了。之前自己做过的爬虫项目都是使用一些re、bs4,url2之类的包,做的爬虫只能爬爬H5页面且功能比较单一。早就听说了scrapy是一个功能强大的python爬虫库,我觉得还是应该利用课余时间好好学习一下这个库。

首先贴一下自己使用的教程。
https://www.runoob.com/w3cnote/scrapy-detail.html
https://www.jianshu.com/p/43029ea38251

其中,菜鸟教程已经读完,并且配置成功了linux和window下的scrapy环境,同时简单创建了一些爬虫项目,创建item类,创建spider爬虫脚本,并学习了XPath的使用。

简书上的教程内容则更多一些,也跟详细。目前只学了一个章节。学习到的内容有:yield的意义与使用,css选择器的一些基本命令,extract的提取命令。

其中,在学习yield的使用的过程中,我有了一些编码思维上的收获。例如代码的简洁性;代码查询数据直接存储在dict中,并使用,会导致占用内存过高,所以应该采用随取随用的思维。

贴几个scrapy简单创建爬虫的命令:

新建项目:

scrapy startproject myspider

创建类:进入item.py,构建新的def模型。

制作爬虫:

scapy genspider test 'test.com'

运行spider(在本目录下):

scrapy crawl itcast

进入shell模拟器直接抓爬数据:

scrapy shell "test.com"

常用的抓取数据命令:

response.css('str').extract_first()

其中str命令即是适用于css的正则表达式。除了css以外,也可以使用XPath进行爬取,XPath路径可以利用chrome的检查,然后copy相关内容的XPath路径。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: