数据挖掘读书笔记--第二章:认识数据
2018-03-21 14:18
211 查看
1. 一些散记知识点
1.1 数据对象与属性类型关于属性
定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”
属性的分类
(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉
(2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。
注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。
(3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。
注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。
(4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
1.2 数据的基本统计描述
中心趋势度量:均值、中位数和众数
(1) 均值(mean): 令x1,...,xi,...,xNx1,...,xi,...,xN为XX的NN个观测值,则该值集合的算术平均为:
x¯=∑Ni=1xiN=x1+x2+...+xNNx¯=∑i=1NxiN=x1+x2+...+xNN
若每个xixi有对应的权重wiwi,则可以计算加权平均为:
x¯=∑Ni=1wixiN=w1x1+w2x2+...+wNxNNx¯=∑i=1NwixiN=w1x1+w2x2+...+wNxNN
评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用截尾均值。
(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性XX的NN个值按递增序排列,如果NN是奇数,则中位数为该有序集的中间值;如果NN是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:
median=Li+N/2−(∑freq)lfreqmedianwidthmedian=Li+N/2−(∑freq)lfreqmedianwidth
其中,LiLi是中位数的下界,NN是整个数据集数值的个数,(∑freq)l(∑freq)l是低于中位数区间的所有区间数值个数的频数和,freqmedianfreqmedian是中位数区间的频数,widthwidth是中位数区间的宽度。
(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。
经验关系有:mean−mode≈3×(mean−median)mean−mode≈3×(mean−median),表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数:一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图:
众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。
1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
极差、四分位数和四分位数极差
极差:集合中最大值max()与最小值min()之差
四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。
四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为:IQR=Q3−Q1IQR=Q3−Q1
五数概括、盒图与离散点
(1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少1.5×IQR1.5×IQR 处的值。
(2) 五数概括:中位数(Q2Q2)、四分位数Q1Q1和Q3Q3、最小和最大观测值。即按次序: Minimum,Q1,Median,Q3,MaximumMinimum,Q1,Median,Q3,Maximum。
(3) 盒图:
i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
ii. 中位数用盒内的线标记。
iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
对于离群点,仅当最高和最低观测值超过四分位数不到1.5×IQR1.5×IQR,胡须扩展到它们。否则,胡须在出现在四分位数的1.5×IQR1.5×IQR之内的最极端的观测值处终止,剩下的情况个别绘出。如下图:
方差和标准差
(1) 方差:数值属性XX的NN个观测值x1,x2,...,xNx1,x2,...,xN的方差是:
σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nx2i)2−x¯2σ2=1N∑i=1N(xi−x¯)2=(1N∑i=1nxi2)2−x¯2
(2)标准差:观测值的标准差σσ是方差σ2σ2的平方根。可以证明最少(1−1k2)×100%(1−1k2)×100%的观测值离均值不超过kk个标准差。
1.4 度量数据的相似性和相异性
数据矩阵与相异性矩阵
(1) 数据矩阵(data matrix):数据矩阵或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)n×p(n个对象×p个属性)矩阵存放n个数据对象。假设有n个对象(如人,商品),被p个属性(如身高、年龄、体重等)所刻画。这些对象是x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p)x1=(x11,x12,x13,...,x1p),x2=(x21,x22,x23,...,x2p),等等,其中xijxij是对象xixi的第jj个属性的值。数据矩阵可以表示为如下:
⎡⎣⎢⎢⎢⎢⎢⎢x11⋯xi1⋯xn1⋯⋯⋯⋯⋯x1f⋯xif⋯xnf⋯⋯⋯⋯⋯x1p⋯xip⋯xnp⎤⎦⎥⎥⎥⎥⎥⎥[x11⋯x1f⋯x1p⋯⋯⋯⋯⋯xi1⋯xif⋯xip⋯⋯⋯⋯⋯xn1⋯xnf⋯xnp]
(2) 相异性矩阵(dissimilarity matrix):相异性矩阵或称对象-对象结构,存放n个对象两两之间的临近度(距离),通常用一个n×nn×n的矩阵表示:
⎡⎣⎢⎢⎢⎢⎢⎢⎢0d(2,1)d(3,1)⋮d(n,1)0d(3,2)⋮d(n,2)0⋮⋯⋯0⎤⎦⎥⎥⎥⎥⎥⎥⎥[0d(2,1)0d(3,1)d(3,2)0⋮⋮⋮d(n,1)d(n,2)⋯⋯0]
其中,d(i,j)d(i,j)表示对象i和j之间的相异性或距离,一般d(i,j)d(i,j)非负,当i和j相近时,其值接近于0;i和j远离时,其值接近于1。相似性度量可以表示为相异性度量的函数,对于标称函数:
sim(i,j)=1−d(i,j)sim(i,j)=1−d(i,j)
对于,像相关系数,互信息熵这类的度量方式,在某种程度上可以看成相似性度量。
标称属性的邻近性度量
两个对象i和j的相异性,可以根据不匹配率来计算:
d(i,j)=p−mpd(i,j)=p−mp
其中,m是匹配的数目(即i和j取值状态相同的属性数),而p是刻画对象的属性总数。一个计算例子:
序数属性的邻近性度量
序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知,如上图的表2.2的testtest-2属性。假设ff是用于描述nn个对象的一组序数属性之一。则关于ff的相异性计算有以下步骤:
① 第ii个对象的ff值为xifxif,属性ff有MfMf个有序的状态,表示排位1,...,Mf1,...,Mf。用于对应排位rij∈{1,...,Mf}rij∈{1,...,Mf}取代xifxif。
② 将每个序数属性的值域映射到[0.0,1.0][0.0,1.0]之间,以便每个属性都有相同的权重,该权重定义为:
zij=rif−1Mf−1zij=rif−1Mf−1
③相异性可以用数值属性距离度量计算,使用zifzif作为第ii个对象的ff值。
例如:上图的表2.2的testtest-2属性这里记作ff有三个状态,分别是一般、好、优秀,即Mf=3Mf=3,第一步,把ff的每个值替换为它的排位,则四个对象将分别被赋值为3、1、2、3。第二步,将排位1映射到0.0,排位2映射到0.5,排位3映射到1.0来实现对排位的规格化。第三步,使用欧几里得距离得到如下的相异性矩阵:
⎡⎣⎢⎢⎢01.00.5000.51.000.50⎤⎦⎥⎥⎥[01.000.50.5001.00.50]
可以看出,对象1和2距离为1最大,不相似,对象2和4也不相似。对象1和4距离为0最小,最相似。
二元属性的邻近性度量
(1) 对称的二元相异性:对于对称的二元属性,每个状态都同样重要。对于下表,如果对象i和j都用对称的二元属性刻画,则i和j的相异性为:
d(i,j)=r+sq+r+s+td(i,j)=r+sq+r+s+t
(2) 非对称的二元相异性:对于非对称的二元属性,两个状态不是同等重要的。给定两个非对称二元属性,若两个都取值为1的情况(正匹配)被认为比两个都取0的情况(负匹配)更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为:
d(i,j)=r+sq+r+sd(i,j)=r+sq+r+s
数值属性的相异性
可用于计算数值属性刻画的对象的相异性的距离度量有:欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令i=(xi1,xi2,...,xip)i=(xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)j=(xj1,xj2,...,xjp)是两个被p个数值属性描述的对象。
(1)欧几里得距离:上述对象i和j的欧几里得距离定义为:
d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√d(i,j)=(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2
(2) 曼哈顿距离:上述对象i和j的曼哈顿距离定义为:
d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|
(3) 闵可夫斯基距离:闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广,定义如下:
d(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|h−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√hd(i,j)=|xi1−xj1|h+|xi2−xj2|h+...+|xip−xjp|hh
这种距离又被称为LhLh范数(h≥1)(h≥1),当(h=1)(h=1)时它表示曼哈顿距离即L1L1范数,当(h=2)(h=2)它表示欧几里得距离即L2L2范数。
(3) 上确界距离:又称Lmax,L∞Lmax,L∞范数和切比雪夫距离,是h→∞h→∞时闵可夫斯距离的推广,形式化地定义为:
d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|d(i,j)=limh→∞(∑f=1p|xif−xjf|h)1h=maxfp|xif−xjf|
以上距离都满足如下数学性质:
非负性:d(i,j)≥0d(i,j)≥0:距离是一个非负的数值
同一性:d(i,i)=0d(i,i)=0: 对象到自身的距离为0
对称性:d(i,j)=d(j,i)d(i,j)=d(j,i): 距离是一个对称函数
三角不等式:d(i,j)≤d(i,k)+d(k,j)d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途径任何其他对象k的距离
满足以上条件的距离称作度量(metric)。
混合类型属性的相异性
将所有属性类型一起处理,只做一次分析。即将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间[0.0,1.0][0.0,1.0]中。假设数据集包含p个混合类型的属性,对象ii和jj之间的相异性d(i,j)d(i,j)定义为:
d(i,j)=∑pf=1δ(f)ijd(f)ij∑pf=1δ(f)ijd(i,j)=∑f=1pδij(f)dij(f)∑f=1pδij(f)
其中,如果xifxif或xjfxjf缺失(即对象i或j没有属性f的度量值)或属性f为非对称二元属性的不重要值xif=xjf=0xif=xjf=0,则指示符δ(f)ij=0δij(f)=0。否则,为1。属性ff对于i和j之间相异性的贡献d(f)ijdij(f)根据它的类型计算:
ff是数值的:d(f)ij=|xif−xjf|maxhxhf−minhxhfdij(f)=|xif−xjf|maxhxhf−minhxhf,其中hh遍取f的所有非缺失对象。
ff是标称或二元的:如果xif=xjfxif=xjf,则d(f)ij=0dij(f)=0;否则等于1
ff是序数的:计算排位rifrif和zif=rif−1Mf−1zif=rif−1Mf−1,并将zifzif作为数值属性对待。
余弦相似性
余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。令xx和yy是两个待比较的向量,则余弦相似性为:
sim(x,y)=x⋅y||x||||y||sim(x,y)=x⋅y||x||||y||
余弦值为0意味着两个向量呈90度夹角,没有匹配。余弦值越接近于1,夹角越小,向量之间的匹配越大。
当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设xi=1xi=1,则对象x具有第i个属性,此时x⋅yx⋅y是x和y共有的属性数,而|x||y||x||y|是x具有的属性数与y具有的属性数的几何均值。于是,sim(x,y)sim(x,y)是公共属性相对拥有的一种度量。
对于这种情况,余弦度量的一个简单的变种如下:
sim(x,y)=x⋅yx⋅x+y⋅y−x⋅ysim(x,y)=x⋅yx⋅x+y⋅y−x⋅y
这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为Tanimoto系数(距离)。
相关文章推荐
- 【读书笔记-数据挖掘概念与技术】认识数据
- 数据挖掘读书笔记-认识数据
- 【读书笔记-数据挖掘概念与技术】认识数据
- 数据挖掘读书笔记一——数据认识
- 【读书笔记-数据挖掘概念与技术】数据立方体技术
- 读书笔记 -- 008_数据挖掘_聚类_基于层次的方法
- 数据挖掘导论课后习题第二章习题,此篇不断更新中直到本章所有习题全部完成
- #读书笔记#大数据·互联网大规模数据挖掘与分布式处理 第二章
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案
- 对于数据挖掘的几点认识[转]
- 读书笔记 -- 007_数据挖掘_聚类_基于划分的方法
- 『数据挖掘』scikit-learn包的进阶学习笔记——第二章:线性回归
- 【数据挖掘概念与技术】学习笔记2-认识数据
- 数据挖掘概念与技术 第2章 认识数据
- 【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)
- 《C++ Primer》读书笔记-第二章 01 数据的内存表示
- 【读书笔记】大数据 数据挖掘 相关
- 数据挖掘——概念、模型和算法读书笔记
- 【读书笔记-数据挖掘概念与技术】分类:基本概念
- 机器学习&&数据挖掘之一:决策树基础认识