您的位置：首页 > 其它

2018-03-09 第二章认识数据

2018-03-12 15:10 120 查看

本章主要内容为：介绍数据的不同类型、描述属性数据的中心趋势、和散布的统计度量，以及数据的可视化技术。

2.1 数据对象与属性类型

2.1.1 什么是属性

属性是一个数据字段，表示数据对象的一个特征。不同领域，叫法不同。
a. 属性（attribute）：数据库和数据仓库领域；
b. 维（dimension）：数据仓库；
c. 特征（feature）：机器学习；
d. 变量（variable）：统计学领域。

2.1.2 属性的类型

a. 标称属性：属性值是一些符号或事物的名称，每个值代表某种类别、编码或者状态。可以用数表示，但是在标称属性上数学运算没有意义。也就是标称属性不是数值属性，不能定量的使用这些整数。 e.g. hair_color:black,blue,red,browm.... occupation:doctor,teacher,coder,... b. 二元属性：是一种特殊的标称属性，只有两个类别或者状态：0或1. 0表示属性不出现，1表示出现。类似CS中的bool属性。分为对称的二元属性和非对称的二元属性。对称是指两种状态是否具有同样的价值、携带相同的权重。对称： gender:male,female
非对称： HIV：positive,negtive c. 序数属性：取值是具有有意义的序或秩评定（ranking），但是相继值之间的差是未知的。e.g.
drink_size: small,middle,big d. 数值属性：定量的、可以度量的值，用整数或实数表示。分为区间标度属性和比率标度属性。区间标度属性可以比较和定量评估值之间的差值；比率标度属性可以说一个值是另一个的倍数或比率。e.g.
区间标度属性：tempeture:20℃ is 5℃ higher than 15℃
比率标度属性：100$ is 100 times than 1$. e. 离散属性与连续属性：离散属性具有有限或无限可数个值；如果属性不是离散的，就是连续的。

2.2 数据的基本统计描述

2.2.1 中心趋势度量：均值、中位数和众数

均值（mean）：普通均值与加权均值，计算方法略；
均值对极端值（例如：离群点）很敏感，截尾均值是丢弃高低极端值后的均值。
中位数（median）：中位数是有序数据值的中间值，计算方法略；
众数（mode）：出现最频繁的值，可以对定性和定量属性确定众数。最高频率可能会对应不同值，导致多个众数。
具有一个、两个、三个众数的数据集合分别称为单峰（unimodal）、双峰（bimodal）、三峰（trimo
4000
dal）
有如下经验关系： mean-mode=3*(mean-median)
中列数（midrange）：数据集的最大和最小值平均值

2.2.2 数据散布度量：极差、四分位数、方差、标准差和四分位数极差

极差：最大值与最小值之间的差值 max-min
分位数： 取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合
四分位数：把数据分布划分成4个相等的部分，使得每部分表示数据分布的四分之一的点。
四分位数极差：第1个分位数和第三个分位数之间的距离 IQR=Q3-Q1
识别可疑的离群点的通常规则是：落在第3个四分位数之上或者第1个四分位数之下至少1.5倍IQR处的值
方差和标准差：略

盒图：五数概括（图片来自百度百科）
a. 盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR
b. 中位数用盒内的线标记
c. 盒外的两条线延伸到最大和最小观测值（如果最值不超过1.5倍IQR的时候，延伸到最值；若是超过，延伸到1.5倍IQR范围内的最极端的观测值，剩下的情况个别绘出）

2.2.3 数据的基本统计描述的图形表示

分位数图（quantile plot）：
分位数-分位数图（quantile-quantile plot）：q-q图，对着另一个对应的分位数，绘制一个单变量分布的分位数
直方图（histogram）：略
散点图（scatter plot）：确定两个数值变量之间看上去是否存在联系、模式或者趋势。

2.3 数据可视化

通过图形表示来表达数据，有基于像素的可视化、基于图符的可视化（切尔诺夫脸）、几何投影可视化、层次可视化技术、树图、标签云。

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵

数据矩阵：对象-属性结构，行代表对象，列代表属性，又称为二模矩阵；相异性矩阵：对象-对象结构，存放n个对象两两之间的临近度（proximity）、差别、距离，又称为单模矩阵。

2.4.2 标称属性的邻近性度量

两个对象i和j之间的相异性可以根据不匹配率计算：相异性（距离）： d(i,j)=(p-m)/p 相似性：sim(i,j)=1-d(i,j)
p：刻画对象的属性总数
m：对象i和对象j取值相同状态的属性数

2.4.3 二元属性的邻近性度量

二元属性的列联表

			对象j
		1	0	sum
对象i	1	q	r	q+r
	0	s	t	s+t
	sum	q+s	r+t	p=q+r+s+t

对于非对称的二元属性来说，两个值同时取0被认为是无意义的，会直接忽略

对称的二元相异性：d(i,j)=(r+s)/(q+r+s+t)
非对称的二元相异性：d(i,j)=(r+s)/(q+r+s)

2.4.4 数值属性的相异性

闵可夫斯基距离（Minkowski distance）：

欧几里得距离（直线距离）：闵可夫斯基距离式子中，p=2曼哈顿距离（城市块距离）：闵可夫斯基距离式子中，p=1
上确界距离（切比雪夫距离）：闵可夫斯基距离式子中，p=+∞ ，约等于在某个属性上，两个对象的最大值差

2.4.5 序数属性的邻近性度量

将序数属性用不同的状态数表示，转为数值属性计算。

2.4.6 余弦相似性

如度量两个文档的相似性，将每个文档用一个词频向量表示，计算两个向量之间的夹角余弦。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

2018-03-09 第二章 认识数据