您的位置:首页 > 其它

数据挖掘学习笔记(三)数据预处理

2013-09-08 18:23 232 查看
数据预处理

一,数据质量

  数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。

二,数据预处理的任务

  (1)数据清理

1,缺失值

  方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。

2,噪声数据

  噪声是被测量的变量的随机误差或方差、

  方法:

   分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑

   回归:用一个拟合函数来光滑数据

   离群点分析:可以通过聚类来检测离群点

  (2)数据集成

    1,实体识别问题

       来自多个信息源的现实世界的等价实体如何才能“匹配”?

    2,冗余和相关分析

       冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。

      标称数据的χ2相关检验

        假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br

        


        其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:

       


        其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。

        χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。

       数值数据的相关系数

         对于数值数据,我们可以通过计算属性A和B的相关系数,估计这两个属性的相关度。

   3, 除了检测属性间的冗余外,还应该在元组级检测重复。

   4,数据值冲突的检测与处理

       (3)数据规约

           数据规约策略包括:维规约,数量规约和数据压缩。

           维规约减少所考虑的随机变量的个数和属性的个数,维规约的方法包括:小波变换,主成分分析,属性子集选择。

           数量规约用代替的,较小的数据表示形式替换原数据。

           数据压缩分为有损的和无损的。

        (4)数据变换与数据离散化

             数据变换的策略:

               光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。

               属性构造:由给定的属性构造新的属性并添加到属性集中去。

               聚集:对数据进行进行汇总或聚集。

               规范化:把属性数据按比例缩放,使其落入某个区间。

               离散化:数据分层。

               由标称数据产生概念分层:属性,如street,可以泛华到较高的概念层,如city或者country。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘