您的位置：首页 > 其它

数据挖掘自习笔记第二章数据处理实践（上）

2013-04-14 12:20 155 查看

数据清洗中噪声数据处理

（1）Bin 方法 ：通过利用相应被平滑数据点的周围点，对一组排序数据进行平滑。

如：有价格数据。

首先对价格数据进行排序，然后将其划分成若干高度的bin（即每个bin包含三个数值）

这时既可以利用每个bin的均值进行平滑。

1. 根据bin均值进行平滑，第一个bin中4、8、15的均值是9，所以可以用9来替换。

2. 根据bin边界进行平滑，利用每个bin的边界值（最大或最小值）来替换该bin中的所有值。

（2）聚类方法。相似或向邻近的数据聚合成一起形成各个聚类集合，而那些位于这些聚类集合外的数据对象，自然被认为是异常数据。

（3）人机结合检查方法。通过人鱼计算机检查结合方法，可以帮助发现异常数据。

（4）回归方法。可以利用拟合函数对数据进行平滑。例如借助线性回归方法。

数据集成与转换

数据集成考虑的问题：

1. 模式集成

2. 冗余问题。

利用相关分析方法可以帮助发现一些数据冗余情况。例如：给出两个属性，择根据这两个属性的数值分析出这两个属性剑的相互关系。属性A，B之间的互相关系可以根据以下计算公式获得。

A、B是属性中的数据。

A、B减去的，分别是A、B的平均值。

σAσB 分别表示属性A，B的标准方差。

如果r A,B >0, 则属性A,B之间是正关联，A增加，B也增加，反之则是负关联

如果r A,B =0, 则A,B属性相互独立，两者没有关系。

r A,B 绝对值越大，说明A,B关联关系越密。

3.数据值冲突检测与消除。

数据转换处理

对于急于距离计算的挖掘，规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果的公正性。下面是三种规格化方法：

方法1：最大最小规格化方法。该方法对被初始数据进行一种线性转换。

设minA 和 maxA 为属性A的最小和最大值。最大最小规格化方法属性A的一个值v映射为v且有v∈[new_ minA ，new_ maxA]，具体映射计算公式如下：