学习笔记(2019-5-8)
昨天在在线教育学院里看了“数据分析基础:统计学”和“大数据概论”两门课。课程的质量可以说是惨不忍睹了。要么视频声音低到听不清,要么只能听得清一些呼隆呼隆的杂音,此外,因为这些个视频是学员录屏所得,并且还没有经过任何视频剪辑处理,总体的体验可以说是很差了。
虽说这个视频课的体验很差,但他本身的内容还是有很大价值的。作为数据人,理应主动去寻找更多此类的课程进行学习,提升自我。
学了一半,跑去看scrapy了。之前自己做过的爬虫项目都是使用一些re、bs4,url2之类的包,做的爬虫只能爬爬H5页面且功能比较单一。早就听说了scrapy是一个功能强大的python爬虫库,我觉得还是应该利用课余时间好好学习一下这个库。
首先贴一下自己使用的教程。
https://www.runoob.com/w3cnote/scrapy-detail.html
https://www.jianshu.com/p/43029ea38251
其中,菜鸟教程已经读完,并且配置成功了linux和window下的scrapy环境,同时简单创建了一些爬虫项目,创建item类,创建spider爬虫脚本,并学习了XPath的使用。
简书上的教程内容则更多一些,也跟详细。目前只学了一个章节。学习到的内容有:yield的意义与使用,css选择器的一些基本命令,extract的提取命令。
其中,在学习yield的使用的过程中,我有了一些编码思维上的收获。例如代码的简洁性;代码查询数据直接存储在dict中,并使用,会导致占用内存过高,所以应该采用随取随用的思维。
贴几个scrapy简单创建爬虫的命令:
新建项目:
scrapy startproject myspider
创建类:进入item.py,构建新的def模型。
制作爬虫:
scapy genspider test 'test.com'
运行spider(在本目录下):
scrapy crawl itcast
进入shell模拟器直接抓爬数据:
scrapy shell "test.com"
常用的抓取数据命令:
response.css('str').extract_first()
其中str命令即是适用于css的正则表达式。除了css以外,也可以使用XPath进行爬取,XPath路径可以利用chrome的检查,然后copy相关内容的XPath路径。
- 【coder-pig教程学习笔记3】Http协议
- Java学习笔记(1):1.概述之计算机语言概述
- ios学习笔记(二)第一个应用程序--Hello World
- [学习笔记]JSTL使用总结(1)
- JQUERY 学习笔记(一)
- 高质量C/C++编译指南 学习笔记
- 对象序列化学习笔记
- VUE学习笔记
- React Native 学习笔记十(ListView的使用)
- 网络编程(UDP/TCP)+JAVA学习笔记-DAY26
- spark in eclipse---Spark学习笔记3
- SSM框架的流程学习笔记以及每一步容易出错的地方
- struts2标签库(tags)学习笔记
- 2002年的J2EE学习笔记
- Redis学习笔记(八)事务 和 连接相关命令
- 视频采集学习笔记
- Python2.7学习笔记-矩阵乘法matrix vs. ndarray ; dot vs. inner,
- xarray官方文档 学习笔记(序章)
- ES 6 +ES 5 的相关学习笔记
- mongodb学习笔记(5)——Sharding Cluster 分片集群及搭建过程