您的位置:首页 > 其它

数据挖掘概念与技术(韩家伟)阅读笔记4--数据集成和变换

2016-11-01 11:39 423 查看
1.数据集成需考虑的问题

a.模式集成和对象匹配

b.冗余。原因一:能够用一个或一组属性导出,原因二:属性或维命名的不一致。

2.属性冗余的相关分析检测

a.数值属性计算相关系数



说明:n为元祖个数,ai,bi分别为元祖i中属性A,B的值。-A,-B分别为A和B的均值,然后是A,B的标准差,然后是AB叉积(即,对于每个元祖,属性A乘以B)的和。注意应有:-1<=r<=1,如果r大于0,则A,B是正相关的。意味着A的值随B的值得增加而增加,该值越大,相关性越强。r=0表示不想关。r<0,AB负相关,意味着一个属性阻止另一个属性的出现。

另外:两个属性相关并不意味着一个导致另外一个。

b.分类(离散)数据通过x2,卡方检验。

设A有r个值,B有c个值,则A的r个值与B的c个值构成一个表的列和行。令(Ai,Bi)表示A取值ai,B取值bi的事件。



其中,Oij是联合事件(Ai,Bj)的观测频度(即实际计数),而eij是(Ai,Bj)的期望频度,可以用下式计算:



其中,N是数据元祖的个数,count(A=ai)是A具有值ai的元祖个数,count(B=bj)是B具有值bj的元祖个数。

3.元祖级冗余检测重复

不一致通常出现在各种不同的副本之间,在于输入的错误和更新了数据的部分出现,而未更新所有的出现。

4.数据值冲突的检测和处理

不同数据源属性的表示,比例,单位,编码不一致。不同数据源相同名字属性的表示意义可能不同。

5.数据变换涉及的内容(数据准备)

a.光滑:去噪声

  b.聚集(不同于聚类):汇总和聚集更多的是对现有的数据进行综合计算得到新的属性值(例如:求年收入)。

   c.数据泛化:使用概念分层,用高的概念替换原始数据。例如,国家替换街道,青年替换数值年龄等。

d.属性构造。构建新的属性添加到属性集中,以帮助挖掘过程,类似于聚集,但不仅仅是汇总,而且目的不同。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: