您的位置：首页 > 数据库

数据挖掘概念与技术第2章认识数据

2016-10-04 17:19 330 查看

本文主要介绍数据对象与属性，数据的基本统计描述，数据可视化和度量数据的相似性和相异性。

2.1 数据对象与属性类别

数据集由数据对象组成，一个数据对象代表一个实体。通常数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中，则称它为数据元组。
属性：是一个数据字段，表示数据对象的一个特征。在文献中，属性、维（dimension）、特征和变量可以互换使用。用以描述一个给定对象的一组属性称为属性向量（或特征向量）。涉及一个属性的数据分布称作单变量。双变量涉及两个属性。
标称属性（nominal attribute）：标称意味着与“名称相关”，标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类的。标称属性值仅仅只是不同的名字，即标称值只提供足够的信息以区分对象。
二元属性（binary attribute）:是一种标称属性，只有两个类别或状态：0或1，又称布尔属性。
<font color=red>一个二元属性是对称的，如果它的两种状态具有同等价值并且携带相同的权重。
一个二元属性是非对称的，如果其状态结果不是同等重要。</font>
序数属性：是一种属性，其可能的值之间具有有意义的序或秩评定（ranking），但是相继值之间的差是未知的。
数值属性：是定量的，即它是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或者比率标度的。
离散属性和连续属性：把属性分成离散的或连续的。

2.2 数据的基本统计描述

一、中心趋势度量：均值、中位数和众数

数据集“中心”的度量最常用、最有效的数值度量是（算术）均值。令 x1，x2，...，xN 为某数值属性X的N个观测值或观测。该值集合的均值（mean）为：

x¯=x1+x2+...+xNN

有时，对于i=1,2,…,N，每一个值xi可以与一个权重wi相关联，权重反应它们所依附的对应值的意义、重要性或者出现的频率。在这种情况下，我们可以计算：x¯=sumNi=1wixisumNi=1wi=w1x1+w2x2+...+wNxNw1+w2+...+wN 这称做加权算术均值或加权平均。

为了抵消少数极端值的影响，我们可以使用截尾均值（trimmed mean）:丢弃高低极端值后的均值。

对于倾斜（非对称）数据，数据中心的更好度量是中位数。中位数是有序数据值的中间值:一定是排序后的数列。它是把数据较高一半与较低一半分开的值。

众数是另一种中心趋势的度量。数据集中众数是集合中出现最频繁的值。

中列数（midrange）也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值得平均值。

二、数据散布度量：极差、四分位数、方差、标准差和四分位数极差

设x1,x2,...,xN 是某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。

假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点，以便把数据分布划分成大小相等的连贯集。这些数据点称做分位数。分位数（quantile）是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。

2-分位数是一个数据点，它把数据分布划分成高低两半。2-分位数是一个中位数。4-分位数是3个数据点，它们把数据划分成4个相等的部分，使得每部分表示数据分布的四分之一。通常称它们为四分位数、100-分位数通常称做百分位数，它们把数据分布划分为100个大小相等的连贯集。第1个四分位数记做Q1，是第25个百分位数，它砍掉数据的最低的25%。第3个四分位数记做Q3，是第75个百分位数，它砍掉数据的最低75%，第2个百分位数是第50个百分位数，作为中位数，它给出数据分布的中心。

第1个和第3个四分位数之间的距离是散布的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差（IQR），定义为：IQR = Q3−Q1。识别可疑离群点的通常规则是，挑选落在第3个四分位数之上或第一个四分位数之下至少1.5*IQR处的值。

五数概括（five-number summary）由中位数Q2、四分位数Q1 和 Q3、最大最小观测值组成，按次序Minimum，Q1，Median，Q2，Maximum写出。

方差和标准差都是数据散布的度量，它们指出数据分布的散布程度。低标准差意味着数据观测趋于非常靠近均值，而高标准差表示数据散布在一个大的值域中。

数据属性X的N个观测值x1，x2，...，xN 的方差（variance）是：σ2=sumNi=1(xi−x¯)2N=(1NsumNi=1x2i)2−x¯2，其中， x¯ 是观测值，观测值的标准差σ是方差σ2 的平方根。

2.3数据可视化

数据可视化（data visualization）旨在通过图形表示清晰有效地表达数据。

- 基于像素的可视化技术

- 几何投影可视化技术

- 基于图符的可视化技术

- 可视化复杂对象和关系

2.4度量数据的相似性和相异性

评估对象之间相互比较的相似或不相似程度。簇是数据对象的集合，使得同一个簇中对象相互相似，而与其他簇中的对象相异。离群点分析也使用基于聚类技术，把可能的离群点看做与其他对象高度相异的对象。对象的相似性可以使用最近邻分类，对给定的对象基于它与模型中其他对象的相似性赋予一个类标号。

相似性与相异性都称邻近性（proximity），典型的，如果两个对象i和j不相似，则它们的相似性度量将返回0，相似性值越高，对象之间的相似性越大。

1.数据矩阵与相异性矩阵

本节讨论的对象被多个属性度量。假设我们有n个对象（如人、商品或课程），每个对象被p个属性（又称维或特征）刻画。这些对象是 x1=(x11，x12，...，x1p)，x2=(x21，x22，...，x2p)，等等，其中xij是对象xi的第j个属性值。为简单计，以后我们称对象xi为对象i。

数据矩阵（data matrix）或称对象-属性结构，这种数据结构用关系表的形式n*p（n个对象*p个属性）矩阵存放n个数据对象：

⎡⎣⎢⎢⎢⎢⎢⎢x11...xi1...xn1.................x1f.....xif.....xnf....................x1p.....xip.....xnp⎤⎦⎥⎥⎥⎥⎥⎥(n*p矩阵)每一行对应一个对象。

相异性矩阵（dissimilarity matrix）或称对象-对象结构：存放n个对象两两之间邻近度，通常使用一个n*n矩阵表示：

⎡⎣⎢⎢⎢⎢⎢⎢⎢0d(2,1)d(3,1)⋮d(n,1)0d(3,2)⋮d(n,2)0⋮⋯⋯0⎤⎦⎥⎥⎥⎥⎥⎥⎥(n*n矩阵)其中d(i,j)是对象i和对象j之间的相异性或差别的度量。一般而言d(i,j)是一个非负数的数值，对象i和j彼此高度相似或接近时，其值接近于0；越不接近，该值越大。

sim(i，j)是对象i和j之间的相似性，sim(i，j)=1-d(i，j)。

2、标称属性的邻近性度量

标称属性可以取两个或者多个状态。例如map_color是一个标称属性，它可以有5中状态：红、黄、绿、粉红和蓝。设标称属性的状态数目是M。这些状态可以使用字母、符号或者一组整数来表示。

两个对象i和j之间的相异性可以根据不匹配率来计算：d(i，j)=p−mp，其中m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。

3、二元属性的邻近性度量

使用对称与非对称的二元属性刻画对象间的相异性与相似性。如何计算二元属性的相异性？如果所有的二元都被看做具有相同的权重，则我们得到一个两行两列的列联表如下图所示：

	对象j
		1	0	sum
对	1	q	r	q+r
象	0	s	t	S+t
i	sum	q+s	r+t	p

其中q是对象i和j相同属性中同时取1的属性数，r是对象i取1、对象j中取0的属性数，s是对象i取0、对象j中取1的属性数，而t是对象i和j都取0的属性数。属性总数是p，其中p=q+r+t+s。

对于对称的二元属性，每个状态同等重要。基于对称二元属性的相异性称作对称的二元属性相异性。如果对象i和j都使用对称的二元属性刻画，则i和j的相异性为:d(i,j)=r+sq+r+s+t

对于非对称的二元属性，两个状态不是同等重要。基于这种属性相异性的被称为非对称二元相异性，其中负匹配t被认为是不重要的，因此在计算时可以被忽略:d(i,j)=r+sq+r+s

互补的，我们称基于相似性而不是基于相异性来度量的两个二元属性的差别。对象i和j之间的非对称二元相似性可以使用以下公式：sim(i,j)=qq+r+s=1−d(i,j)。系数sim(i,j)被称作Jaccard系数。

4、数值属性的相异性：闵可夫斯基距离

最流行的距离度量是欧几里得距离(即、直线或乌鸦飞行距离)。令i=(xi1,xi2,....,xip)和j=(xj1,xj2,....,xjp)是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离为：d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−
15b52
xjp)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√

闵可夫斯基距离(Minkowski distance)是欧几里得距离和曼哈顿距离的推广，定义如下：d(i,j)=∣∣xi1−xj1∣∣h+∣∣xi2−xj2∣∣h+.....+∣∣xip−xjp∣∣h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√h

5、余弦相似性的度量

文档用数以千计的属性表示，每一个属性记录文档中一个特定词或短语的频度。这样每个文档都被一个所谓的词频向量(term-frequency vector)表示。例如文档1中包含词team的5个实例，而hockey出现3次。

词频向量通常很长，并且是稀疏矩阵。余弦相似性是一种度量，它用来比较文档，或针对给定的查询词向量对文档排序。

令x和y为两个待比较的向量，使用余弦度量作为相似性函数，我们有：sim(i,j)=x.y||x||.||y||

其中，||x||是向量x=(x1,x2,...,xp)的欧几里得范数，定义为x21+x22+..+x2p−−−−−−−−−−−−√它即为向量的长度。该度量使计算向量x和y的余弦夹角。余弦值为0意味着两个向量呈90度，没有匹配。余弦夹角为越接近于1，夹角越小，向量之间的匹配越大。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据库数据挖掘数据可视化

相关文章推荐

新的分享

章节导航

数据挖掘概念与技术 第2章 认识数据