您的位置:首页 > 其它

第二章 认识数据 笔记

2014-10-16 21:19 85 查看
一、数据对象与属性类型

1、属性: 一个数据字段,表示数据对象的一个特征。(属性、维、特征、变量可以互换实用)

2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...)属于标称属性。
标称属性值可以用数字表示,如1,2,3等;但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值、中位数是没有意义的。众数是有意义的。

3、二元属性:是一种标称属性,只有两种类别(状态):0和1,通常0表示该属性不出现,1表示出现。又称为布尔属性(true 和 false)。
二元属性又分对称的和非对称的: 对称指两种状态具有同等价值且相同的权重,如性别(男、女);非对称是指状态的结果不是同样重要的,如病毒化验结果(阳性、阴性)。

4、序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。序数属性通常用于等级评定调查。
标称、二元和序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。

5、数值属性:是定量的,他是可度量的量,用证书或实数值表示,数值属性可以是区间标度的或比率标度的。
区间标度属性:属性用相等的单位尺度度量。区间熟悉的值有序,例如: 20度,15度(温度属性);
比率标度属性:具有固定零点的数值属性,即一个值是另一个的倍数(比率)。比率值也是有序的,可以计算值之间的差、也能计算均值、中位数、众数。

6、离散属性与连续属性:机器学习领域开发的分类算法通常把属性分类成离散或连续的。
离散属性:具有有限或无限可数个值,可以用或不用整数表示,如头发颜色、婚姻状况都是有限个值,是离散的。

二、数据的基本统计描述
对于成功的数据预处理来说,把握数据的全貌是至关重要的。
三类基本统计描述:
中心趋势度量:度量数据分布的中部或中心位置,还有均值、中位数、众数和中列数。
数据的散布:常见度量有:极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。
(可以用于识别离群点)
图形显示可视化地审视数据:条图、饼图、线图、分位数图、分位数-分位数图、直方图、散点图
1、中心趋势度量
数据集“中心”的最常用、最有效的数值度量是(算术)均值


也就是数据库中的SQL操作:avg()

加权平均(加权算术均值):权重反映数值的意义、重要性或出现的频率:(权重W与值X对应)



均值并非总是度量数据中心的最佳方法:对极端值(离群点)很敏感;解决方法可以使用截断均值:丢弃高低两个极端值(不一定是一个值,也可以是多个值)后的均值。
中位数:更好度量数据中心(非对称数据)的方法,是有序数据值的中间值。



众数:是另外一种中心趋势度量。是集合中出现最频繁的值。若具有多个众数的数据集是多峰的;另一种极端情况是如果每个数据值仅出现一次,则他是没有众数的。(一般对应与非对称数据)
中列数:数据集中最大和最小值的平均值

2、度量数据散布:
极差:集合的极差是最大值与最小值的差。
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
2-分位数:是一个数据点,他把数据分布划分成高低两半,2-分位数对应于中位数。
4-分位数:是三个数据点,他们把数据分布划分成4个相等的部分,使得每部分表示的数据分布的四分之一。
100-分位数:称为百分位数,他们把数据分布划分成为100个大小相等的连贯集合。

四分位数:第一个四分位数记作Q1,是第25个百分数为(数据集合25%的位置);第二个四分位数记作Q2,是第50个百分位数,作为中位数给出数据分布的中心;第三个四分位数记作Q3,是第75个百分位数(数据集合75%的位置)。
四分位数极差(IQR): IQR = Q3 - Q1
五数概括:由中位数(Q2)、四分位数Q,Q3、最小和最大观测值组成。按次序为 Min、Q1、Median、Q3、Max。



识别可疑的离群点的规则:通常挑选落在第三个四分位数之上或第一个四分位数之下 至少1.5倍IQR处的值。
eg:



方差和标准差:



三、数据可视化
数据可视化旨在通过图形表示 清晰有效地表达数据。

四、度量数据的相似性和相异性
2、标称属性的邻近性度量
两个对象i,j的相异性计算公式:





3、二元属性的邻近性度量



q ,r ,s ,t 是表示两个对象在1,0下的属性个数(若某属性是i=1,j=1,则个数q+1)p=q+r+s+t 所有属性之和。
两个对象i j的相异性:



有时候,可以忽略两个对象均为0时的属性(无意义),则称为 非对称的二元属性 的相异性计算公式:



相似性即为:


sim(i,j)也称jaccard系数。

4、数值属性的相异性:闵可夫斯基距离、欧几里得距离、曼哈顿距离
欧几里得距离:



曼哈顿距离: 指的是城市街区间的街区距离(横轴距离+竖轴距离)



例子:



闵可夫斯基距离:



其中,h为实数,h>=1(该距离又称为Lp范数,p即为h)h=1时时曼哈顿距离,H=2时是欧几里得距离。

上确界距离(又称Lmax,Loo范数和切比雪夫距离),是h->oo时闵可夫斯基距离的推广。


(某个属性上的最大差值就是上确界距离)

5、序数属性的邻近性度量
序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。

7、余弦相似性:是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。





余弦值0意味着两个向量呈正交关系(90°),没有匹配。 值越接近1,夹角越小,向量之间的匹配越大。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: