数据获取,解析,存储等知识的学习总结
2018-01-07 16:28
302 查看
数据获取,解析,存储等知识的学习总结
作者:csj
更新时间:2017.12.31
email:59888745@qq.com
说明:因内容较多,会不断更新 xxx学习总结,此部分已更新完;
回主目录:2017 年学习记录和总结
我们在数据处理,数据分析时,数据的来源有:
1.直接读取已有的.csv;.txt;.excel文件;
2.解析json数据;
3.url获取数据;自己在网上或指定的网站抓取,解析,来获取数据。
这部分我们主要讲解第3点,如何自己从网站抓取数据,解析数据,存储数据;一般从指定url获取数据,清洗数据,保存到csv文件里;
主要的知识点有:
1.HTTP请求处理requests:
定制头部信息
Post表单提交
Cookie设置与读取
超时设置
2.XML/Json解析
内置json库
dump(s):把dict转换为json文本
Load(s):把json文本转换为dict
HTMLParser:
DOM:特点
SAX:特点
3.CSS定位器基础知识
定位方式 同过html,css的页面元素来定位
元素 element
类 .class, element.class1.class2
Id, element
属性 [prop=value], element[prop=value]
4.静态网页解析
BS4:find函数搜索使用
使用css定位器搜索,获取所需要的数据
5.反爬虫用到的主要方法
伪装浏览器
伪装多个IP
操作速度不要太快
使用不同账号
6.使用REDIS实现队列服务
7.Selenium
写定位信息,快速和稳定地定位页面上的元素
作者:csj
更新时间:2017.12.31
email:59888745@qq.com
说明:因内容较多,会不断更新 xxx学习总结,此部分已更新完;
回主目录:2017 年学习记录和总结
我们在数据处理,数据分析时,数据的来源有:
1.直接读取已有的.csv;.txt;.excel文件;
2.解析json数据;
3.url获取数据;自己在网上或指定的网站抓取,解析,来获取数据。
这部分我们主要讲解第3点,如何自己从网站抓取数据,解析数据,存储数据;一般从指定url获取数据,清洗数据,保存到csv文件里;
主要的知识点有:
1.HTTP请求处理requests:
定制头部信息
Post表单提交
Cookie设置与读取
超时设置
2.XML/Json解析
内置json库
dump(s):把dict转换为json文本
Load(s):把json文本转换为dict
HTMLParser:
DOM:特点
SAX:特点
3.CSS定位器基础知识
定位方式 同过html,css的页面元素来定位
元素 element
类 .class, element.class1.class2
Id, element
属性 [prop=value], element[prop=value]
4.静态网页解析
BS4:find函数搜索使用
使用css定位器搜索,获取所需要的数据
5.反爬虫用到的主要方法
伪装浏览器
伪装多个IP
操作速度不要太快
使用不同账号
6.使用REDIS实现队列服务
7.Selenium
写定位信息,快速和稳定地定位页面上的元素
相关文章推荐
- Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型
- Android入门学习笔记(一)|基础知识|文件数据存储读取|解析XML
- Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型
- Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型
- Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型
- 关于网页动态数据获取的知识学习(1)
- 基础学习总结(四)---内存获取、XML之PULL解析
- 【C#小知识】C#中一些易混淆概念总结--------数据类型存储位置,方法调用,out和ref参数的使用
- 牛腩视频总结一 由获取IP学习到的知识
- 嵌入式arm学习总结(八)--存储知识-nandflash-norflash-基于MINI2440平台
- 【学习笔记】day2数据存储和界面展现第一天 11_api获取外部存储的真实路径 12_检查外部存储状态
- Android学习总结二:五大布局、Android测试、数据存储访问(TextUtils)、Map的使用
- android成长日记 11.详细学习了数据存储相关基础知识
- Windows Phone 7 学习笔记:数据存储与获取的方式介绍
- Android学习之Json数据的获取与解析
- Object-c 数据存储知识总结
- 每日学习总结:DropDownList是否已选择验证、存储过程参数为sql字符串问题、将截断字符串或二进制数据。\r\n语句已终止
- Android开发学习---如何写数据到外部存储设备(sd卡),Environment.getExternalStorageDirectory,怎么获取sd卡的大小?
- android利用http从网络获取数据并存储或解析
- android菜鸟学习笔记19----Android数据存储(三)XML文件的解析及序列化