您的位置：首页 > 其它

学习笔记（2019-5-8）

2019-05-08 15:08 78 查看

昨天在在线教育学院里看了“数据分析基础：统计学”和“大数据概论”两门课。课程的质量可以说是惨不忍睹了。要么视频声音低到听不清，要么只能听得清一些呼隆呼隆的杂音，此外，因为这些个视频是学员录屏所得，并且还没有经过任何视频剪辑处理，总体的体验可以说是很差了。

虽说这个视频课的体验很差，但他本身的内容还是有很大价值的。作为数据人，理应主动去寻找更多此类的课程进行学习，提升自我。

学了一半，跑去看scrapy了。之前自己做过的爬虫项目都是使用一些re、bs4，url2之类的包，做的爬虫只能爬爬H5页面且功能比较单一。早就听说了scrapy是一个功能强大的python爬虫库，我觉得还是应该利用课余时间好好学习一下这个库。

其中，菜鸟教程已经读完，并且配置成功了linux和window下的scrapy环境，同时简单创建了一些爬虫项目，创建item类，创建spider爬虫脚本，并学习了XPath的使用。

简书上的教程内容则更多一些，也跟详细。目前只学了一个章节。学习到的内容有：yield的意义与使用，css选择器的一些基本命令，extract的提取命令。

其中，在学习yield的使用的过程中，我有了一些编码思维上的收获。例如代码的简洁性；代码查询数据直接存储在dict中，并使用，会导致占用内存过高，所以应该采用随取随用的思维。

贴几个scrapy简单创建爬虫的命令：

新建项目：

scrapy startproject myspider

创建类：进入item.py，构建新的def模型。

制作爬虫：

scapy genspider test 'test.com'

运行spider（在本目录下）：

scrapy crawl itcast

进入shell模拟器直接抓爬数据：

scrapy shell "test.com"

常用的抓取数据命令：

response.css('str').extract_first()

其中str命令即是适用于css的正则表达式。除了css以外，也可以使用XPath进行爬取，XPath路径可以利用chrome的检查，然后copy相关内容的XPath路径。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航