您的位置:首页 > 其它

2018-03-09 第二章 认识数据

2018-03-12 15:10 120 查看
本章主要内容为:介绍数据的不同类型、描述属性数据的中心趋势、和散布的统计度量,以及数据的可视化技术。

2.1 数据对象与属性类型

 2.1.1 什么是属性

   属性是一个数据字段,表示数据对象的一个特征。不同领域,叫法不同。
      a. 属性(attribute):数据库和数据仓库领域;
      b. 维(dimension):数据仓库;
      c. 特征(feature):机器学习;
      d. 变量(variable):统计学领域。

 2.1.2 属性的类型

       a. 标称属性:属性值是一些符号或事物的名称,每个值代表某种类别、编码或者状态。可以用数表示,但是在标称属性上数学运算没有意义。也就是标称属性不是数值属性,不能定量的使用这些整数。 e.g. hair_color:black,blue,red,browm.... occupation:doctor,teacher,coder,...       b. 二元属性:是一种特殊的标称属性,只有两个类别或者状态:0或1.  0表示属性不出现,1表示出现。类似CS中的bool属性。 分为对称的二元属性和非对称的二元属性。 对称是指两种状态是否具有同样的价值、携带相同的权重。对称: gender:male,female
非对称: HIV:positive,negtive       c. 序数属性:取值是具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。e.g.
drink_size: small,middle,big       d. 数值属性:定量的、可以度量的值,用整数或实数表示。分为区间标度属性和比率标度属性。区间标度属性可以比较和定量评估值之间的差值;比率标度属性可以说一个值是另一个的倍数或比率。e.g.
区间标度属性:tempeture:20℃ is 5℃ higher than 15℃
比率标度属性:100$ is 100 times than 1$.       e. 离散属性与连续属性:离散属性具有有限或无限可数个值;如果属性不是离散的,就是连续的。

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数

均值(mean):普通均值与加权均值,计算方法略;
          均值对极端值(例如:离群点)很敏感,截尾均值是丢弃高低极端值后的均值。
中位数(median):中位数是有序数据值的中间值,计算方法略;
众数(mode):出现最频繁的值,可以对定性和定量属性确定众数。最高频率可能会对应不同值,导致多个众数。
          具有一个、两个、三个众数的数据集合分别称为单峰(unimodal)、双峰(bimodal)、三峰(trimo
4000
dal)
       有如下经验关系: mean-mode=3*(mean-median)                       
中列数(midrange):数据集的最大和最小值平均值

2.2.2 数据散布度量:极差、四分位数、方差、标准差和四分位数极差

极差:最大值与最小值之间的差值       max-min               
分位数:  取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
四分位数:把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一的点。
四分位数极差:第1个分位数和第三个分位数之间的距离      IQR=Q3-Q1          
识别可疑的离群点的通常规则是:落在第3个四分位数之上或者第1个四分位数之下至少1.5倍IQR处的值
方差和标准差:

盒图:五数概括(图片来自百度百科)
         a. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
         b. 中位数用盒内的线标记
         c. 盒外的两条线延伸到最大和最小观测值(如果最值不超过1.5倍IQR的时候,延伸到最值;若是超过,延伸到1.5倍IQR范             围内的最极端的观测值,剩下的情况个别绘出)


2.2.3 数据的基本统计描述的图形表示

分位数图(quantile plot):
分位数-分位数图(quantile-quantile plot):q-q图,对着另一个对应的分位数,绘制一个单变量分布的分位数
直方图(histogram):
散点图(scatter plot):确定两个数值变量之间看上去是否存在联系、模式或者趋势。

2.3 数据可视化

通过图形表示来表达数据,有基于像素的可视化、基于图符的可视化(切尔诺夫脸)、几何投影可视化、层次可视化技术、树图、标签云。

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵与相异性矩阵

数据矩阵:对象-属性结构,行代表对象,列代表属性,又称为二模矩阵;相异性矩阵:对象-对象结构,存放n个对象两两之间的临近度(proximity)、差别、距离,又称为单模矩阵。

2.4.2 标称属性的邻近性度量

两个对象i和j之间的相异性可以根据不匹配率计算:相异性(距离): d(i,j)=(p-m)/p 相似性:sim(i,j)=1-d(i,j)
p:刻画对象的属性总数
m:对象i和对象j取值相同状态的属性数

2.4.3 二元属性的邻近性度量

二元属性的列联表
   对象j 
  10sum
对象i1qrq+r
 0sts+t
 sumq+sr+tp=q+r+s+t
对于非对称的二元属性来说,两个值同时取0被认为是无意义的,会直接忽略
对称的二元相异性:d(i,j)=(r+s)/(q+r+s+t)
非对称的二元相异性:d(i,j)=(r+s)/(q+r+s)

2.4.4 数值属性的相异性

闵可夫斯基距离(Minkowski distance):


欧几里得距离(直线距离):闵可夫斯基距离式子中,p=2曼哈顿距离(城市块距离):闵可夫斯基距离式子中,p=1
上确界距离(切比雪夫距离):闵可夫斯基距离式子中,p=+∞ ,约等于在某个属性上,两个对象的最大值差

2.4.5 序数属性的邻近性度量

将序数属性用不同的状态数表示,转为数值属性计算。

2.4.6 余弦相似性

如度量两个文档的相似性,将每个文档用一个词频向量表示,计算两个向量之间的夹角余弦。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: