您的位置：首页 > 其它

数据挖掘---探索数据篇

2008-04-15 17:46 155 查看

探索数据是对数据进行初步研究,以便更好的理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
一。汇总统计

汇总统计是量化的，用单个数或数的小集合捕获可能很大的值集的各种特征。

1。频率和众数

是描绘无序的、分类的值的集合。给定一个在{v1,v2...,vi,...,vk}上取值的分类属性x和m个对象的集合，值vi的频率定义为：frequency(vi)=具有属性值vi的对象数/m。分类属性的众数（mode）是具有最高频率的值。

2。百分位数

对于有序数据，考虑值集的百分位数更有意义。给定一个有序的或连续的属性x和0与100之间的数p，第p个百分位数xp是一个x值，使得x的p%的观测值小于xp。

3。位置度量：均值和中位数

均值和中位数比较简单，也比较常用，但是均值对离群值比较敏感，为了克服这个问题，可以使用截断均值，指定0和100之间的百分位数p,丢弃高端和低端（p/2）%的数据，然后用常规的方法计算均值，所得的结果就是截断均值。

4。散布度量：极差和方差

这种度量表明属性值是否散布很宽，或者是否相对集中在单个点（如均值）附近。

给定一个属性x，它具有m个值{x1,x2,...,xm}，x的极差定义为：range(x)=max(x)-min(x)。

尽管极差标识最大散布，但是如果大部分值都集中在一个较小的范围内，并且更极端的值的个数相对较少，则可能会引起误解。因此，作为散布的度量，方差和标准差更可取。

5。多元汇总统计

包含多个属性的数据（多元数据）的位置度量可以通过分别计算每个属性的均值或中位数得到。

对于多元数据，每个属性的散布可以独立于其它属性。然而对于具有连续变量的数据，数据的散布更多地用协方差矩阵S表示。其中，S的第ij个元素Sij是数据的第i个和第j个属性的协方差。

协方差的值接近于0表明两个变量不具有（线性）关系。对于数据探索，相关性比协方差更可取。相关矩阵R的第三ij个元素是数据的第i个和第j个属性之间的相关性。rij=correlation(xi,xj)=covariance(xi,xj)/sisj。其中si和sj分别是xi,xj的方差。

二。可视化

数据的可视化是指以图形或表格的形式显示信息。

1。可视化的动机

其它动机是人们能够快速吸取大量可视化信息，并发现其中的模式。

2。一般概念

*表示：将数据映射到图形元素

即将信息中的对象、属性、和联系映射成可视的对象、属性和联系，即转换成诸如点、线、形状和颜色等图形元素。

*安排

对于好的可视化来说，对象和属性的可视化表示的正确选择是基本的。在可视化显示中，项的安排也是至关重要的。

*选择

可视化另一个关键概念是选择，即删除或不突出某些对象或属性。

3。技术

*少量属性的可视化

茎中图

直方图

二维直方图

盒状图

饼图

散布图

扩展的二维和三维图：是指在二维或三维的基础上，使用颜色或阴影、大小、形状等，散布图可以显示多达三个附加信息，可以表达五个或六个维。

*可视化时间空间数据

等高线图

曲面图

矢量场图

低维切片

动画

4。可视化高维数据

矩阵：将数据矩阵的每个元素与图像中的一个像素关联，就可以把矩阵看作图像。

平行坐标系：与传统的坐标系不同，平行坐标系不同的坐标轴是平行的，而不是正交的。

星形坐标：对象的每个属性映射到图示符的一个特征，这样我们打一眼就可以看出两个对象的差异。

chernoff脸：每个属性与脸部的一个特征相关联。

三。OLAP和多维数据分析

1。用多维数据表示数据集

大部分数据集可以用表来表示，其中每一行是一个对象。

2。分析多维数据

*数据立方体：计算聚集量

*维归约和转轴

其中转轴是指在除两个维之外的所有维上的聚集。结果是一个二维交叉表，只有两个指定的维作为留下的维。

*切片和切块

切片是通过对一个或多个维指定特定的值，从整个多维数组中选择一组单元。切块通过指定属性值区间选择单元子集。

*上卷和下钻

例如：可以将一个每个的销售记录的数据集按月聚集（上卷）销售数据。也可以将月销售数据分解（下钻）成日销售总和。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航