数据挖掘学习笔记(三)数据预处理
2013-09-08 18:23
232 查看
数据预处理
一,数据质量
数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。
二,数据预处理的任务
(1)数据清理
1,缺失值
方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。
2,噪声数据
噪声是被测量的变量的随机误差或方差、
方法:
分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑
回归:用一个拟合函数来光滑数据
离群点分析:可以通过聚类来检测离群点
(2)数据集成
1,实体识别问题
来自多个信息源的现实世界的等价实体如何才能“匹配”?
2,冗余和相关分析
冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。
标称数据的χ2相关检验
假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br
其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:
其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。
χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。
数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数,估计这两个属性的相关度。
3, 除了检测属性间的冗余外,还应该在元组级检测重复。
4,数据值冲突的检测与处理
(3)数据规约
数据规约策略包括:维规约,数量规约和数据压缩。
维规约减少所考虑的随机变量的个数和属性的个数,维规约的方法包括:小波变换,主成分分析,属性子集选择。
数量规约用代替的,较小的数据表示形式替换原数据。
数据压缩分为有损的和无损的。
(4)数据变换与数据离散化
数据变换的策略:
光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。
属性构造:由给定的属性构造新的属性并添加到属性集中去。
聚集:对数据进行进行汇总或聚集。
规范化:把属性数据按比例缩放,使其落入某个区间。
离散化:数据分层。
由标称数据产生概念分层:属性,如street,可以泛华到较高的概念层,如city或者country。
一,数据质量
数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。
二,数据预处理的任务
(1)数据清理
1,缺失值
方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。
2,噪声数据
噪声是被测量的变量的随机误差或方差、
方法:
分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑
回归:用一个拟合函数来光滑数据
离群点分析:可以通过聚类来检测离群点
(2)数据集成
1,实体识别问题
来自多个信息源的现实世界的等价实体如何才能“匹配”?
2,冗余和相关分析
冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。
标称数据的χ2相关检验
假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br
其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:
其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。
χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。
数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数,估计这两个属性的相关度。
3, 除了检测属性间的冗余外,还应该在元组级检测重复。
4,数据值冲突的检测与处理
(3)数据规约
数据规约策略包括:维规约,数量规约和数据压缩。
维规约减少所考虑的随机变量的个数和属性的个数,维规约的方法包括:小波变换,主成分分析,属性子集选择。
数量规约用代替的,较小的数据表示形式替换原数据。
数据压缩分为有损的和无损的。
(4)数据变换与数据离散化
数据变换的策略:
光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。
属性构造:由给定的属性构造新的属性并添加到属性集中去。
聚集:对数据进行进行汇总或聚集。
规范化:把属性数据按比例缩放,使其落入某个区间。
离散化:数据分层。
由标称数据产生概念分层:属性,如street,可以泛华到较高的概念层,如city或者country。
相关文章推荐
- Weka中数据挖掘与机器学习系列之为什么要写Weka这一系列学习笔记?(一)
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- python数据分析与挖掘学习笔记(1)-基础及准备
- 数据挖掘学习笔记-关于数据的基本概念
- 数据挖掘学习笔记一
- 《SAS编程和数据挖掘商业案例》第14部分学习笔记
- 【SQL Server学习笔记】18:对字符数据的处理
- 数据挖掘、机器学习、人工智能学习笔记
- 《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(4/12)(Part 1)
- 计算机视觉与图像处理学习笔记(三)opencv的基本数据类型与简单图像处理函数
- python数据挖掘学习笔记】十四.Scipy调用curve_fit实现曲线拟合
- BI工具:tableau桌面版 视频学习笔记(一、处理数据)
- 2012/1/9 《C++ Primer Plus》第三章:处理数据 学习笔记
- 《python数据分析和数据挖掘》——ID3决策树学习笔记
- 加州理工学院公开课:机器学习与数据挖掘课程笔记(一)学习问题
- 数据挖掘学习笔记:分类、统计学习
- <学习笔记4>数据挖掘原理与运用-sql server2008 数据库
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(二)
- MyGeneration学习笔记(8) :dOOdad提供的数据绑定、特殊函数和事务处理
- 大数据学习笔记之三十九 数据挖掘算法之预测建模