箱体模型数据分析
2017-12-22 14:27
323 查看
数据质量分析,是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。
其主要任务是检测原始数据中是否存在脏数据,脏数据一般包括:缺失值、异常值、不一致值、重复数据及含有特殊符号的数据。
其中异常值分析时对样本中个别值的提取,也成为离群点分析。
可以采用(1)简单统计量分析(2)3б原则(正态分布)(3)箱型图分析
![](http://img.blog.csdn.net/20171222142910843?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbG9uZzYzNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
下图为对一组数据进行异常分析之前所做的数据分析-数据预处理阶段进行箱体分析,同时对于统计数据进行计算。
![](http://img.blog.csdn.net/20171222142930177?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbG9uZzYzNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![](http://img.blog.csdn.net/20171222142946500?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbG9uZzYzNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
统计数据上分析,其他的可以作为异常数据进行分析,讨论并作进一步处理
学习参考与Python数据分析与挖掘实战.pdf
其主要任务是检测原始数据中是否存在脏数据,脏数据一般包括:缺失值、异常值、不一致值、重复数据及含有特殊符号的数据。
其中异常值分析时对样本中个别值的提取,也成为离群点分析。
可以采用(1)简单统计量分析(2)3б原则(正态分布)(3)箱型图分析
下图为对一组数据进行异常分析之前所做的数据分析-数据预处理阶段进行箱体分析,同时对于统计数据进行计算。
统计数据上分析,其他的可以作为异常数据进行分析,讨论并作进一步处理
学习参考与Python数据分析与挖掘实战.pdf
相关文章推荐
- MySQL数据分析-(5)数据库设计之ER模型
- Python数据分析与机器学习-使用Gensim库构造中文维基百度数据词向量模型
- React实战-通过ToDo源码分析Redux的数据模型设计
- 基于Hadoop MapReduce模型的数据分析平台研究设计
- 3DMAX 5动画导出及模型,动画数据格式分析
- 【财政决策支持系统DSS】财政支出OLAP分析模型参考【财政数据仓库DW】
- 【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据
- Mybatis (六)数据模型分析思路、一对一、resultMap、一对多、多对多
- 在多维数据分析模型的路上越走越远
- 数据仓库数据库设计方法---关系模型和多维模型比较分析
- 数据仓库数据库设计方法---关系模型和多维模型比较分析
- 数据仓库中两种数据模型的分析比较
- Git 数据模型分析-1
- 数据建模,ODS模型分析
- B2C网站运营核心数据分析模型
- 利用TCP/IP 参考模型 分析数据传输过程
- 【大数据部落】WEKA文本挖掘分析垃圾邮件分类模型
- 最新2018年大数据趋势 :人工智能... 数据分析将包含可视化模型...
- android源码分析--MMS data 数据模型及业务逻辑transaction