您的位置：首页 > 其它

数据挖掘读书笔记--第二章：认识数据

2018-03-21 14:18 211 查看

1. 一些散记知识点

1.1 数据对象与属性类型

关于属性

定义：属性(attribute)是一个数据字段，表示数据对象的一个特征。一般习惯称为”特征”

属性的分类

(1) 标称属性： “与名称相关”，标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，一次标称属性又被看作是分类的，这些值不必具有有意义的序。例如：水果的种类，苹果、香蕉

(2) 二元属性：二元属性是一种特殊的标称属性，只有两个类别或状态：0或1，若对应True和False则又称为布尔属性。

注意：如果一个二元属性的两种状态具有同等价值并且携带相同权重；即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态；如果一个二元属性的状态结果不是同等重要的，如HIV的阳性和阴性，则称这个二元属性为非对称的。因为用1表示最重要的结果（通常是稀有的）编码（HIV阳性），另一方用0编码。

(3) 序数属性：其可能的值之间具有有意义的序或秩评定，但是相继值的差是未知的。例如：成绩的差、良好、优划分。

注意，标称、二元和序数属性都是定性的，即他们描述对象的特征，而不给出实际大小或数值。

(4) 数值属性：数值属性是定量的，即它是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

1.2 数据的基本统计描述

中心趋势度量：均值、中位数和众数

(1) 均值(mean)：令x1,...,xi,...,xNx1,...,xi,...,xN为XX的NN个观测值，则该值集合的算术平均为：

x¯=∑Ni=1xiN=x1+x2+...+xNNx¯=∑i=1NxiN=x1+x2+...+xNN

若每个xixi有对应的权重wiwi，则可以计算加权平均为：

x¯=∑Ni=1wixiN=w1x1+w2x2+...+wNxNNx¯=∑i=1NwixiN=w1x1+w2x2+...+wNxNN

评价：尽管均值是描述数据集的最有用的单个量，但是它并非总是度量数据中心的最佳方法。主要问题是，均值对极端值（例如，离群点）很敏感。为了抵消少数极端值的影响，可以使用截尾均值。

(2) 中位数(median)：对于倾斜的非对称数据，数据中心的更好的度量是中位数。假设某属性XX的NN个值按递增序排列，如果NN是奇数，则中位数为该有序集的中间值；如果NN是偶数，则中位数不唯一，它可以是最中间两个值和它们之间的任意值，一般取二者平均。当观测数量很大时，中位数的计算开销很大。例如对给定形式为区间的数据分布：目标人群的收入10000~20000美元的人数为500，20000~30000美元的人数为200……中位数很难精确具体值，需要进行估计，用插值计算数据集的中位数近似值为：

median=Li+N/2−(∑freq)lfreqmedianwidthmedian=Li+N/2−(∑freq)lfreqmedianwidth

其中，LiLi是中位数的下界，NN是整个数据集数值的个数，(∑freq)l(∑freq)l是低于中位数区间的所有区间数值个数的频数和，freqmedianfreqmedian是中位数区间的频数，widthwidth是中位数区间的宽度。

(3) 众数(mode)：数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般，具有两个或更多众数的数据集是多峰的。极端情况下，若集合中每个数值只出现一次，则该集合没有众数。

经验关系有：mean−mode≈3×(mean−median)mean−mode≈3×(mean−median)，表示：如果均值和中位数已知，则适度倾斜的单峰频率曲线的众数容易近似计算。

(4) 中列数：一个集合中的最大值减去最小值。

下图是数据的倾斜程度示意图：

众数出现在中位数之前，表示数据是正倾斜的，看“尾巴”数据表现为右偏；反之，众数出现的中位数之后，表示数据是负倾斜的，左偏。

1.3 度量数据散布：极差、四分位数、方差、标准差和四分位数极差

极差、四分位数和四分位数极差

极差：集合中最大值max()与最小值min()之差

四分位数：4-分位数是3个数据点把数据（按大小升序排列）等分为4个相等的部分，使得每部分表示数据分布的四分之一。其中，第2个4-分位数为中位数。

四分位数极差：第1个和第3个4-分位数之间的距离是散步的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR)，定义为：IQR=Q3−Q1IQR=Q3−Q1

五数概括、盒图与离散点

(1) 识别可疑的离群点的通常规则是，挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少1.5×IQR1.5×IQR 处的值。

(2) 五数概括：中位数(Q2Q2)、四分位数Q1Q1和Q3Q3、最小和最大观测值。即按次序： Minimum,Q1,Median,Q3,MaximumMinimum,Q1,Median,Q3,Maximum。

(3) 盒图：

i. 盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR

ii. 中位数用盒内的线标记。

iii. 盒外的两条线（称为胡须）延伸到最小(Minimum)和最大(Maximum)观测值。

对于离群点，仅当最高和最低观测值超过四分位数不到1.5×IQR1.5×IQR，胡须扩展到它们。否则，胡须在出现在四分位数的1.5×IQR1.5×IQR之内的最极端的观测值处终止，剩下的情况个别绘出。如下图：

方差和标准差

(1) 方差：数值属性XX的NN个观测值x1,x2,...,xNx1,x2,...,xN的方差是：

σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nx2i)2−x¯2σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nxi2)2−x¯2

(2)标准差：观测值的标准差σσ是方差σ2σ2的平方根。可以证明最少(1−1k2)×100%(1−1k2)×100%的观测值离均值不超过kk个标准差。

1.4 度量数据的相似性和相异性

数据矩阵与相异性矩阵

(1) 数据矩阵(data matrix)：数据矩阵或称对象-属性结构：这种数据结构用关系表的形式或n×p(n个对象×p个属性)n×p(n个对象×p个属性)矩阵存放n个数据对象。假设有n个对象（如人，商品），被p个属性（如身高、年龄、体重等）所刻画。这些对象是x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p)x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p)，等等，其中xijxij是对象xixi的第jj个属性的值。数据矩阵可以表示为如下：

⎡⎣⎢⎢⎢⎢⎢⎢x11⋯xi1⋯xn1⋯⋯⋯⋯⋯x1f⋯xif⋯xnf⋯⋯⋯⋯⋯x1p⋯xip⋯xnp⎤⎦⎥⎥⎥⎥⎥⎥[x11⋯x1f⋯x1p⋯⋯⋯⋯⋯xi1⋯xif⋯xip⋯⋯⋯⋯⋯xn1⋯xnf⋯xnp]

(2) 相异性矩阵(dissimilarity matrix)：相异性矩阵或称对象-对象结构，存放n个对象两两之间的临近度(距离)，通常用一个n×nn×n的矩阵表示：

⎡⎣⎢⎢⎢⎢⎢⎢⎢0d(2,1)d(3,1)⋮d(n,1)0d(3,2)⋮d(n,2)0⋮⋯⋯0⎤⎦⎥⎥⎥⎥⎥⎥⎥[0d(2,1)0d(3,1)d(3,2)0⋮⋮⋮d(n,1)d(n,2)⋯⋯0]

其中，d(i,j)d(i,j)表示对象i和j之间的相异性或距离，一般d(i,j)d(i,j)非负，当i和j相近时，其值接近于0；i和j远离时，其值接近于1。相似性度量可以表示为相异性度量的函数，对于标称函数：

sim(i,j)=1−d(i,j)sim(i,j)=1−d(i,j)

对于，像相关系数，互信息熵这类的度量方式，在某种程度上可以看成相似性度量。

标称属性的邻近性度量

两个对象i和j的相异性，可以根据不匹配率来计算：

d(i,j)=p−mpd(i,j)=p−mp

其中，m是匹配的数目（即i和j取值状态相同的属性数），而p是刻画对象的属性总数。一个计算例子：

序数属性的邻近性度量

序数属性的值之间具有有意义的序或排位，而相继值之间的量值未知，如上图的表2.2的testtest-2属性。假设ff是用于描述nn个对象的一组序数属性之一。则关于ff的相异性计算有以下步骤：

① 第ii个对象的ff值为xifxif，属性ff有MfMf个有序的状态，表示排位1,...,Mf1,...,Mf。用于对应排位rij∈{1,...,Mf}rij∈{1,...,Mf}取代xifxif。

② 将每个序数属性的值域映射到[0.0,1.0][0.0,1.0]之间，以便每个属性都有相同的权重，该权重定义为：

zij=rif−1Mf−1zij=rif−1Mf−1

③相异性可以用数值属性距离度量计算，使用zifzif作为第ii个对象的ff值。

例如：上图的表2.2的testtest-2属性这里记作ff有三个状态，分别是一般、好、优秀，即Mf=3Mf=3，第一步，把ff的每个值替换为它的排位，则四个对象将分别被赋值为3、1、2、3。第二步，将排位1映射到0.0，排位2映射到0.5，排位3映射到1.0来实现对排位的规格化。第三步，使用欧几里得距离得到如下的相异性矩阵：

⎡⎣⎢⎢⎢01.00.5000.51.000.50⎤⎦⎥⎥⎥[01.000.50.5001.00.50]

可以看出，对象1和2距离为1最大，不相似，对象2和4也不相似。对象1和4距离为0最小，最相似。

二元属性的邻近性度量

(1) 对称的二元相异性：对于对称的二元属性，每个状态都同样重要。对于下表，如果对象i和j都用对称的二元属性刻画，则i和j的相异性为：

d(i,j)=r+sq+r+s+td(i,j)=r+sq+r+s+t

(2) 非对称的二元相异性：对于非对称的二元属性，两个状态不是同等重要的。给定两个非对称二元属性，若两个都取值为1的情况（正匹配）被认为比两个都取0的情况（负匹配）更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为：

d(i,j)=r+sq+r+sd(i,j)=r+sq+r+s

数值属性的相异性

可用于计算数值属性刻画的对象的相异性的距离度量有：欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令i=(xi1,xi2,...,xip)i=(xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)j=(xj1,xj2,...,xjp)是两个被p个数值属性描述的对象。

(1)欧几里得距离：上述对象i和j的欧几里得距离定义为：

d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2

(2) 曼哈顿距离：上述对象i和j的曼哈顿距离定义为：

d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|

(3) 闵可夫斯基距离：闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广，定义如下：

d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√hd(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|hh

这种距离又被称为LhLh范数(h≥1)(h≥1)，当(h=1)(h=1)时它表示曼哈顿距离即L1L1范数，当(h=2)(h=2)它表示欧几里得距离即L2L2范数。

(3) 上确界距离：又称Lmax,L∞Lmax,L∞范数和切比雪夫距离，是h→∞h→∞时闵可夫斯距离的推广，形式化地定义为：

d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|

以上距离都满足如下数学性质：

非负性：d(i,j)≥0d(i,j)≥0:距离是一个非负的数值

同一性：d(i,i)=0d(i,i)=0: 对象到自身的距离为0

对称性：d(i,j)=d(j,i)d(i,j)=d(j,i): 距离是一个对称函数

三角不等式：d(i,j)≤d(i,k)+d(k,j)d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途径任何其他对象k的距离

满足以上条件的距离称作度量(metric)。

混合类型属性的相异性

将所有属性类型一起处理，只做一次分析。即将不同的属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同的区间[0.0,1.0][0.0,1.0]中。假设数据集包含p个混合类型的属性，对象ii和jj之间的相异性d(i,j)d(i,j)定义为：

d(i,j)=∑pf=1δ(f)ijd(f)ij∑pf=1δ(f)ijd(i,j)=∑f=1pδij(f)dij(f)∑f=1pδij(f)

其中，如果xifxif或xjfxjf缺失（即对象i或j没有属性f的度量值）或属性f为非对称二元属性的不重要值xif=xjf=0xif=xjf=0，则指示符δ(f)ij=0δij(f)=0。否则，为1。属性ff对于i和j之间相异性的贡献d(f)ijdij(f)根据它的类型计算：

ff是数值的：d(f)ij=|xif−xjf|maxhxhf−minhxhfdij(f)=|xif−xjf|maxhxhf−minhxhf，其中hh遍取f的所有非缺失对象。

ff是标称或二元的：如果xif=xjfxif=xjf，则d(f)ij=0dij(f)=0；否则等于1

ff是序数的：计算排位rifrif和zif=rif−1Mf−1zif=rif−1Mf−1，并将zifzif作为数值属性对待。

余弦相似性

余弦相似性是一种度量，它可以用来比较文档，或针对给定的查询词向量对文档排序。令xx和yy是两个待比较的向量，则余弦相似性为：

sim(x,y)=x⋅y||x||||y||sim(x,y)=x⋅y||x||||y||

余弦值为0意味着两个向量呈90度夹角，没有匹配。余弦值越接近于1，夹角越小，向量之间的匹配越大。

当属性为二值属性时，余弦相似性函数可以用共享特征或属性解释。假设xi=1xi=1，则对象x具有第i个属性，此时x⋅yx⋅y是x和y共有的属性数，而|x||y||x||y|是x具有的属性数与y具有的属性数的几何均值。于是，sim(x,y)sim(x,y)是公共属性相对拥有的一种度量。

对于这种情况，余弦度量的一个简单的变种如下：

sim(x,y)=x⋅yx⋅x+y⋅y−x⋅ysim(x,y)=x⋅yx⋅x+y⋅y−x⋅y

这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为Tanimoto系数(距离)。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航