python数据清洗工具、方法、过程整理归纳(八、总结)
2020-03-05 06:09
549 查看
文章目录
数据清洗步骤
- 数据获取,使用read_csv或者read_excel
- 数据探索,使用shape,describe或者info函数
- 行列操作,使用loc或者iloc函数
- 数据整合,对不同的数据源进行整理
- 数据类型转换,对不同字段数据类型进行转换
- 分组汇总,对数据进行各个维度的计算
- 处理重复值、缺失值和异常值以及数据离散化
函数大全
- merge,concat函数常常用于数据整合
- pd.to_datetime常常用于日期格式转换
- str函数用于字符串操作
- 函数astype用于数据类型转换
- 函数apply和map用于更加高级的数据处理
- Groupby用于创建分组对象
- 透视表函数pd.pivot_table和交差表pd.crosstab
- 分组对象和agg结合使用,统计需要的信息
数据清洗的内容
- 选择子集
- 重命名列
- 缺失数据处理
- 数据类型的转换
- 字符串的处理
- 时间日期的处理
- 数据排序
- 异常值处理
总结
数据清洗实际上是将实际业务问题中,脏数据清洗干净,转换为‘赶紧的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):
- 数据缺失(Incomplete)是属性值为空的情况。如OCcupancy = “”
- 数据噪声(Noisy)是数据值不合常理的情况。如Salary = “-100”
- 数据不一致(Inconsistent)是数据量或者属性数目超出数据分析需要的情况
- 数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况
- 离群点/异常值(Outliers)是偏离大部分值的数据
- 数据重复是在数据集中出现多次的数据
欢迎阅读数据清洗系列文章:python数据清洗工具、方法、过程整理归纳
- 一、数据清洗之常用工具——numpy,pandas
- 二、数据清洗之文件读写——读取csv、Excel和MySQL数据
- 三、数据清洗之数据表操作——数据筛选、增加删除、查找修改、数据整理和层次化索引
- 四、数据清洗之数据转换——日期格式数据处理、高阶函数数据处理、字符串数据处理
- 五、数据清洗之数据统计——数据分组运算、聚合函数使用、分组对象和apply函数、透视图与交叉表
- 六、数据清洗之数据预处理(一)——重复值处理、缺失值处理
- 七、数据清洗之数据预处理(二)——异常值处理、数据离散化处理
- 八、总结
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- Python 中文分词工具 ——结巴分词的使用方法总结
- Python进行数据提取的方法总结
- 最近在ArcGIS Engine开发中关于调用gp工具过程出现COM 组件的调用返回了错误 HRESULT E_FAIL 错误的解决方法 和 学习oracle中遇到的一些问题总结
- Python数据分析(数据清洗分类和整理)
- 安卓开发过程遇到的工具方法总结(持续更新~~)
- 机器学习数据降维方法总结(附python代码)
- python读取文本文件数据的方法总结
- 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程
- python数据分析 常用方法总结(持续更新)
- Python中selenium实现文件上传所有方法整理总结
- 学习笔记(02):Python数据清洗实战-Pandas常用数据结构dataframe和方法
- U6数据导出工具项目总结二 两种常见的DataGridView输出到EXCEL方法
- 在学习过程中总结的LoaderManager的LoaderCallbacks刷新数据以使onLoadFinished回调方法能被执行的两种方式
- 在学习过程中总结的LoaderManager的LoaderCallbacks刷新数据以使onLoadFinished回调方法能被执行的两种方式
- Python安装其他包、工具、库的方法总结
- Python结巴中文分词工具使用过程中遇到的问题及解决方法
- Python数据挖掘工具总结
- Python遍历pandas数据方法总结
- 干货:用Python进行数据清洗,这7种方法你一定要掌握
- Python 中文分词工具 ——结巴分词的使用方法总结