您的位置:首页 > 其它

数据挖掘读书笔记--第二章:认识数据

2018-03-21 14:18 211 查看

1. 一些散记知识点

1.1 数据对象与属性类型

关于属性

定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”

属性的分类

(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉

(2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。

注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。

(3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。

注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。

(4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

1.2 数据的基本统计描述

中心趋势度量:均值、中位数和众数

(1) 均值(mean): 令x1,...,xi,...,xNx1,...,xi,...,xN为XX的NN个观测值,则该值集合的算术平均为:

x¯=∑Ni=1xiN=x1+x2+...+xNNx¯=∑i=1NxiN=x1+x2+...+xNN

若每个xixi有对应的权重wiwi,则可以计算加权平均为:

x¯=∑Ni=1wixiN=w1x1+w2x2+...+wNxNNx¯=∑i=1NwixiN=w1x1+w2x2+...+wNxNN

评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用截尾均值

(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性XX的NN个值按递增序排列,如果NN是奇数,则中位数为该有序集的中间值;如果NN是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:

median=Li+N/2−(∑freq)lfreqmedianwidthmedian=Li+N/2−(∑freq)lfreqmedianwidth

其中,LiLi是中位数的下界,NN是整个数据集数值的个数,(∑freq)l(∑freq)l是低于中位数区间的所有区间数值个数的频数和,freqmedianfreqmedian是中位数区间的频数,widthwidth是中位数区间的宽度。

(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。

经验关系有:mean−mode≈3×(mean−median)mean−mode≈3×(mean−median),表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

(4) 中列数:一个集合中的最大值减去最小值。

下图是数据的倾斜程度示意图:



众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。

1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

极差、四分位数和四分位数极差

极差:集合中最大值max()与最小值min()之差

四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。

四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为:IQR=Q3−Q1IQR=Q3−Q1

五数概括、盒图与离散点

(1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少1.5×IQR1.5×IQR 处的值。

(2) 五数概括:中位数(Q2Q2)、四分位数Q1Q1和Q3Q3、最小和最大观测值。即按次序: Minimum,Q1,Median,Q3,MaximumMinimum,Q1,Median,Q3,Maximum。

(3) 盒图

i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR

ii. 中位数用盒内的线标记。

iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。

对于离群点,仅当最高和最低观测值超过四分位数不到1.5×IQR1.5×IQR,胡须扩展到它们。否则,胡须在出现在四分位数的1.5×IQR1.5×IQR之内的最极端的观测值处终止,剩下的情况个别绘出。如下图:



方差和标准差

(1) 方差:数值属性XX的NN个观测值x1,x2,...,xNx1,x2,...,xN的方差是:

σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nx2i)2−x¯2σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nxi2)2−x¯2

(2)标准差:观测值的标准差σσ是方差σ2σ2的平方根。可以证明最少(1−1k2)×100%(1−1k2)×100%的观测值离均值不超过kk个标准差。

1.4 度量数据的相似性和相异性

数据矩阵与相异性矩阵

(1) 数据矩阵(data matrix):数据矩阵或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)n×p(n个对象×p个属性)矩阵存放n个数据对象。假设有n个对象(如人,商品),被p个属性(如身高、年龄、体重等)所刻画。这些对象是x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p)x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p),等等,其中xijxij是对象xixi的第jj个属性的值。数据矩阵可以表示为如下:

⎡⎣⎢⎢⎢⎢⎢⎢x11⋯xi1⋯xn1⋯⋯⋯⋯⋯x1f⋯xif⋯xnf⋯⋯⋯⋯⋯x1p⋯xip⋯xnp⎤⎦⎥⎥⎥⎥⎥⎥[x11⋯x1f⋯x1p⋯⋯⋯⋯⋯xi1⋯xif⋯xip⋯⋯⋯⋯⋯xn1⋯xnf⋯xnp]

(2) 相异性矩阵(dissimilarity matrix):相异性矩阵或称对象-对象结构,存放n个对象两两之间的临近度(距离),通常用一个n×nn×n的矩阵表示:

⎡⎣⎢⎢⎢⎢⎢⎢⎢0d(2,1)d(3,1)⋮d(n,1)0d(3,2)⋮d(n,2)0⋮⋯⋯0⎤⎦⎥⎥⎥⎥⎥⎥⎥[0d(2,1)0d(3,1)d(3,2)0⋮⋮⋮d(n,1)d(n,2)⋯⋯0]

其中,d(i,j)d(i,j)表示对象i和j之间的相异性或距离,一般d(i,j)d(i,j)非负,当i和j相近时,其值接近于0;i和j远离时,其值接近于1。相似性度量可以表示为相异性度量的函数,对于标称函数:

sim(i,j)=1−d(i,j)sim(i,j)=1−d(i,j)

对于,像相关系数,互信息熵这类的度量方式,在某种程度上可以看成相似性度量。

标称属性的邻近性度量

两个对象i和j的相异性,可以根据不匹配率来计算:

d(i,j)=p−mpd(i,j)=p−mp

其中,m是匹配的数目(即i和j取值状态相同的属性数),而p是刻画对象的属性总数。一个计算例子:



序数属性的邻近性度量

序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知,如上图的表2.2的testtest-2属性。假设ff是用于描述nn个对象的一组序数属性之一。则关于ff的相异性计算有以下步骤:

① 第ii个对象的ff值为xifxif,属性ff有MfMf个有序的状态,表示排位1,...,Mf1,...,Mf。用于对应排位rij∈{1,...,Mf}rij∈{1,...,Mf}取代xifxif。

② 将每个序数属性的值域映射到[0.0,1.0][0.0,1.0]之间,以便每个属性都有相同的权重,该权重定义为:

zij=rif−1Mf−1zij=rif−1Mf−1

③相异性可以用数值属性距离度量计算,使用zifzif作为第ii个对象的ff值。

例如:上图的表2.2的testtest-2属性这里记作ff有三个状态,分别是一般、好、优秀,即Mf=3Mf=3,第一步,把ff的每个值替换为它的排位,则四个对象将分别被赋值为3、1、2、3。第二步,将排位1映射到0.0,排位2映射到0.5,排位3映射到1.0来实现对排位的规格化。第三步,使用欧几里得距离得到如下的相异性矩阵:

⎡⎣⎢⎢⎢01.00.5000.51.000.50⎤⎦⎥⎥⎥[01.000.50.5001.00.50]

可以看出,对象1和2距离为1最大,不相似,对象2和4也不相似。对象1和4距离为0最小,最相似。

二元属性的邻近性度量

(1) 对称的二元相异性:对于对称的二元属性,每个状态都同样重要。对于下表,如果对象i和j都用对称的二元属性刻画,则i和j的相异性为:

d(i,j)=r+sq+r+s+td(i,j)=r+sq+r+s+t



(2) 非对称的二元相异性:对于非对称的二元属性,两个状态不是同等重要的。给定两个非对称二元属性,若两个都取值为1的情况(正匹配)被认为比两个都取0的情况(负匹配)更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为:

d(i,j)=r+sq+r+sd(i,j)=r+sq+r+s

数值属性的相异性

可用于计算数值属性刻画的对象的相异性的距离度量有:欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令i=(xi1,xi2,...,xip)i=(xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)j=(xj1,xj2,...,xjp)是两个被p个数值属性描述的对象。

(1)欧几里得距离:上述对象i和j的欧几里得距离定义为:

d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2

(2) 曼哈顿距离:上述对象i和j的曼哈顿距离定义为:

d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|

(3) 闵可夫斯基距离:闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广,定义如下:

d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√hd(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|hh

这种距离又被称为LhLh范数(h≥1)(h≥1),当(h=1)(h=1)时它表示曼哈顿距离即L1L1范数,当(h=2)(h=2)它表示欧几里得距离即L2L2范数。

(3) 上确界距离:又称Lmax,L∞Lmax,L∞范数和切比雪夫距离,是h→∞h→∞时闵可夫斯距离的推广,形式化地定义为:

d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|

以上距离都满足如下数学性质:

非负性:d(i,j)≥0d(i,j)≥0:距离是一个非负的数值

同一性:d(i,i)=0d(i,i)=0: 对象到自身的距离为0

对称性:d(i,j)=d(j,i)d(i,j)=d(j,i): 距离是一个对称函数

三角不等式:d(i,j)≤d(i,k)+d(k,j)d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途径任何其他对象k的距离

满足以上条件的距离称作度量(metric)

混合类型属性的相异性

将所有属性类型一起处理,只做一次分析。即将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间[0.0,1.0][0.0,1.0]中。假设数据集包含p个混合类型的属性,对象ii和jj之间的相异性d(i,j)d(i,j)定义为:

d(i,j)=∑pf=1δ(f)ijd(f)ij∑pf=1δ(f)ijd(i,j)=∑f=1pδij(f)dij(f)∑f=1pδij(f)

其中,如果xifxif或xjfxjf缺失(即对象i或j没有属性f的度量值)或属性f为非对称二元属性的不重要值xif=xjf=0xif=xjf=0,则指示符δ(f)ij=0δij(f)=0。否则,为1。属性ff对于i和j之间相异性的贡献d(f)ijdij(f)根据它的类型计算:

ff是数值的:d(f)ij=|xif−xjf|maxhxhf−minhxhfdij(f)=|xif−xjf|maxhxhf−minhxhf,其中hh遍取f的所有非缺失对象。

ff是标称或二元的:如果xif=xjfxif=xjf,则d(f)ij=0dij(f)=0;否则等于1

ff是序数的:计算排位rifrif和zif=rif−1Mf−1zif=rif−1Mf−1,并将zifzif作为数值属性对待。

余弦相似性

余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。令xx和yy是两个待比较的向量,则余弦相似性为:

sim(x,y)=x⋅y||x||||y||sim(x,y)=x⋅y||x||||y||

余弦值为0意味着两个向量呈90度夹角,没有匹配。余弦值越接近于1,夹角越小,向量之间的匹配越大。

当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设xi=1xi=1,则对象x具有第i个属性,此时x⋅yx⋅y是x和y共有的属性数,而|x||y||x||y|是x具有的属性数与y具有的属性数的几何均值。于是,sim(x,y)sim(x,y)是公共属性相对拥有的一种度量。

对于这种情况,余弦度量的一个简单的变种如下:

sim(x,y)=x⋅yx⋅x+y⋅y−x⋅ysim(x,y)=x⋅yx⋅x+y⋅y−x⋅y

这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为Tanimoto系数(距离)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: