您的位置:首页 > 其它

数据挖掘---探索数据篇

2008-04-15 17:46 155 查看
探索数据是对数据进行初步研究,以便更好的理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
一。汇总统计

汇总统计是量化的,用单个数或数的小集合捕获可能很大的值集的各种特征。

1。频率和众数

是描绘无序的、分类的值的集合。给定一个在{v1,v2...,vi,...,vk}上取值的分类属性x和m个对象的集合,值vi的频率定义为:frequency(vi)=具有属性值vi的对象数/m。分类属性的众数(mode)是具有最高频率的值。

2。百分位数

对于有序数据,考虑值集的百分位数更有意义。给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。

3。位置度量:均值和中位数

均值和中位数比较简单,也比较常用,但是均值对离群值比较敏感,为了克服这个问题,可以使用截断均值,指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果就是截断均值。

4。散布度量:极差和方差

这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。

给定一个属性x,它具有m个值{x1,x2,...,xm},x的极差定义为:range(x)=max(x)-min(x)。

尽管极差标识最大散布,但是如果大部分值都集中在一个较小的范围内,并且更极端的值的个数相对较少,则可能会引起误解。因此,作为散布的度量,方差和标准差更可取。

5。多元汇总统计

包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。

对于多元数据,每个属性的散布可以独立于其它属性。然而对于具有连续变量的数据,数据的散布更多地用协方差矩阵S表示。其中,S的第ij个元素Sij是数据的第i个和第j个属性的协方差。

协方差的值接近于0表明两个变量不具有(线性)关系。对于数据探索,相关性比协方差更可取。相关矩阵R的第三ij个元素是数据的第i个和第j个属性之间的相关性。rij=correlation(xi,xj)=covariance(xi,xj)/sisj。其中si和sj分别是xi,xj的方差。

二。可视化

数据的可视化是指以图形或表格的形式显示信息。

1。可视化的动机

其它动机是人们能够快速吸取大量可视化信息,并发现其中的模式。

2。一般概念

*表示:将数据映射到图形元素

即将信息中的对象、属性、和联系映射成可视的对象、属性和联系,即转换成诸如点、线、形状和颜色等图形元素。

*安排

对于好的可视化来说,对象和属性的可视化表示的正确选择是基本的。在可视化显示中,项的安排也是至关重要的。

*选择

可视化另一个关键概念是选择,即删除或不突出某些对象或属性。

3。技术

*少量属性的可视化

茎中图

直方图

二维直方图

盒状图

饼图

散布图

扩展的二维和三维图:是指在二维或三维的基础上,使用颜色或阴影、大小、形状等,散布图可以显示多达三个附加信息,可以表达五个或六个维。

*可视化时间空间数据

等高线图

曲面图

矢量场图

低维切片

动画

4。可视化高维数据

矩阵:将数据矩阵的每个元素与图像中的一个像素关联,就可以把矩阵看作图像。

平行坐标系:与传统的坐标系不同,平行坐标系不同的坐标轴是平行的,而不是正交的。

星形坐标:对象的每个属性映射到图示符的一个特征,这样我们打一眼就可以看出两个对象的差异。

chernoff脸:每个属性与脸部的一个特征相关联。

三。OLAP和多维数据分析

1。用多维数据表示数据集

大部分数据集可以用表来表示,其中每一行是一个对象。

2。分析多维数据

*数据立方体:计算聚集量

*维归约和转轴

其中转轴是指在除两个维之外的所有维上的聚集。结果是一个二维交叉表,只有两个指定的维作为留下的维。

*切片和切块

切片是通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元。切块通过指定属性值区间选择单元子集。

*上卷和下钻

例如:可以将一个每个的销售记录的数据集按月聚集(上卷)销售数据。也可以将月销售数据分解(下钻)成日销售总和。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: