您的位置:首页 > 其它

模式识别学习笔记之三:模式识别已经简单了解,接下来必须要做的事!

2012-04-11 16:12 405 查看
       模式识别已经简单了解,也许你以前也已经知道或听老师讲过,接下来必须要做的事就是要记下一些重要的概念和复习以前学过但已经忘掉的知识。这里把一些重要的、也许老师不讲的、也许让人听起来不知所曰的概念介绍一下,有些看着简单,但不要放过啊!好姑娘是不那么容易追到的,更何况还有那么多人惦记!

这里的内容比较多,会有不断地更新!

1 样本:对任一个具体的事物,都可称为一个样本,它是一类事物的一个具体体现,它与模式这个概念联用,则模式表示一类事物的统称,而样本则是该类事物的一个具体体现。

2 模式:英语是pattern,表示一类事物,如印刷体A与手写体A属同一模式。B与A则属于不同模式,而每一个具体的字母A、B则是它的模式的具体体现,称之为样本。因此模式与样本共同使用时,样本是具体的事物,而模式是对同一类事物概念性的概况。一个人的许多照片是这个人的许多样本,而这个人本身是一个模式。(这里说的有点啰嗦,只看最后一句就明白了)

3 模式类:这个词与模式联合使用,此时模式表示具体的事物,而模式类则是对这一类事物的概念性描述,就是样本的一个代名词。

4 模式识别:人们在见到一个具体的物品时会分辨出它的类名,如方桌与圆桌都会归结为是桌子,男人和女人就归为人类。这是人们所具有的认识事物的功能,在这门课中就称为是模式识别。具体的说是从具体事物辨别出它的概念。这门课讨论的是让机器实现事物的分类,因此由机器实现模式识别。就是讨论机器认识事物的基本概念、基本方法。

5 分类器:用来识别具体事物的类别的系统称为分类器

6 模式识别系统:用来实现对所见事物(样本)确定其类别的系统,也称为分类器。

7 特征:一个事件(样本)有若干属性称为特征,对属性要进行度量,一般有两种方法,一种是定量的,如长度、体积、重量等,可用具体的数量表示,但也可用粗略的方法表示,如一个物体可用“重”、“轻”、“中等”表示,前种方法为定量表示,而后种方法则是定性表示。重与轻变成了一种离散的,或称符号性的表示,它们在数值上有内在的联系。在本门课中一般偏重定量的表示。

8 特征向量:对一个具体事物(样本)往往可用其多个属性来描述,因此,描述该事物用了多个特征,将这些特征有序地排列起来,如一个桌子用长、宽、高三种属性的度量值有序地排列起来,就成为一个向量。这种向量就称为特征向量。每个属性称为它的一个分量,或一个元素。

9 维数:一个向量具有的分量数目,如向量,X=(x1,x2,x3),则该向量的维数是3。

10 列向量:将一个向量的分量排列成一列表示,如。



11 行向量:将一个向量的分量排列成一行表示,如X=(x1,x2,x3)

12 转置:将一个列向量写成行向量的形式的方法就是转置。如定义X为列向量,则XT就是该向量的行向量表示。转置的概念与矩阵中转置的概念一样。

13 特征空间:一种事物的每个属性值都是在一定范围内变化,修改桌子高度一般在0.5米到1.5米范围内变化,宽度在0.6到1.5米范围内变化。长度是1米到3米范围内变化,则由这三个范围限定的一个三维空间就是桌子的特征空间。归纳起来说所讨论问题的特征向量可能取值范围的全体就是特征空间。

14 分类决策:根据一个事物(样本)的属性确定其类别,称为分类决策。

15 分类决策方法:对一事物进行分类决策所用的具体方法,例如一个人身高超过1.8米,就判断它是个男人,身高超过1.8米就是具体的分类决策方法。

16 学习:让一个机器有分类决策能力,就需要找到具体的分类决策方法,确定分类决策方法的过程统称为学习,就像人认识事物的本领的获取与提高都是通过学习得到的。这里将学习分成有监督学习与无监督学习两种不同的方法。(先去看19,20)

17 训练:一般将有监督学习的学习方法称之为训练。

18 训练(样本)集:在训练过程中使用的样本集,该样本集中的每个样本的类别已知。例如训练一个将男女进行分类的系统的训练集,应包含一个男生集及一个女生集,这两个集中每个成员的性别是已知的。

19 有监督学习方法:从不同类的训练集数据中体现出的规律性进行分析,从而确定分类决策方法,这种学习方法是在训练集指导下进行的,就像有教师来指导学习一样,称为有监督学习方法。与之相对的是无监督学习方法。

20 无监督学习方法:在一组数据集中寻找其规律性的过程称为无监督学习方法。例如分析数据集中的自然划分(聚类);分析数据集体现的规律性,并用某种数学形式表示(数据似合);分析数据集中各种分量(描述量,特征)之间的相关性(数据挖掘,知识获取)等,这种学习没有训练样本集作指导,这是与有监督学习方法的不同点。

21 先验概率:根据大量统计确定某类事物出现的比例,如我国理工科大学男女生比例大约为8:2,则在这类学校一个学生是男生的先验概率为0.8,而为女生的概率是0.2,这两类概率是互相制约的,因为这两个概率之和应满足总和为1的约束。

22 类分布概率密度函数:同一类事物的各个属性都有一定的变化范围,在这些变化范围内的分布密度用一种函数形式表示,则称为类分布概率密度函数,这种函数可以是一些著名的普遍运用的函数形式,如正态分布,也可能是更复杂的无法用分析式表示的函数。这种分布密度只对同一类事物而言,因此与其它类事物没有关系。例如,男女生比例是男生与女生这两类事物之间的关系,而男生高度的分布则与女生的分布无关。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。例如X表示某一个学生的特征向量,则,男生的分布概率密度表示成P(X|男生),女生的表示成P(X|女生)这两者之间没有任何关系。即一般的情况下P(X|w1)+P(X|w2)≠1,可为从0~2之间的任意值。

23 后验概率:一个具体事物属于某种类别的概率,例如一个学生用特征向量X表示,它是男性或女性的概率表示成P(男生|X)和P(女生|X)这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|X)+P(女生|X)=1的约束,这一点是与类分布密度函数不同的。后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此
P(男生|X)和P(男生)是两个不同的概念。

24 贝叶斯公式:两个事物X与w联合出现的概率称为联合概率,可写成P(X,w)而它们又可与条件概率联系起来,即P(X,w)=P(X|w)P(w)=P(w|x)P(w)这就是贝叶斯公式。如果将上式中各个项与先验概率,类分布密度函数以及后验概率联合起来,可以找到利用先验概率,分布密度函数计算后验概率的方法。

25 贝叶斯决策理论:根据先验概率、类分布密度函数以及后验概率这些量来实现分类决策的方法,称为贝叶斯决策理论。由于这些量之间符合贝叶斯公式,因此称为贝叶斯决策理论。

26 基于最小错误率的贝叶斯决策:根据一个事物后验概率最大作为分类依据的决策,称为基于最小错误率的贝叶斯决策。从统计上讲,即从平均错误率角度看,分类错误率为最小,因此称为基于最小错误率的贝叶斯决策。

27 风险决策:对事物进行分类或做某种决策,都有可能产生错误,不同性质的错误就会带来各种不同程度的损失,因而作决策是要冒风险的。考虑到决策后果(风险)的决策是风险决策。如进行股票交易要冒风险,投资,确定建设项目,规划等都要冒风险,在衡量了可能遇到的风险后所作的决策称为风险决策。

28 基于最小风险的贝叶斯决策:如果样本X的实际类别为wi,而作决策为αj则可以定义此时作αj决策的风险为λ(αj|wi),由此可以确定对样本X做αj决策的期望损失,比较做不同决策的期望损失,选择期望损失最小的决策后最终决策。就是基于最小风险的贝叶斯决策。

29 判别函数:是一组与各类别有关的函数,对每一个样本可以计算出这组函数的所有函数值,然后依据这些函数值的极值(最大或最小)做分类决策。例如基于最小错误率的贝叶斯决策的判别函数就是样本的每类后验概率,基于最小风险的贝叶斯决策中的判别函数是该样本对每个决策的期望风险。

30 决策域与决策面:根据判别函数组中哪一个判别函数值为极值为准则可将特征空间划分成不同的区域,称为决策域,相邻决策域的边界是决策分界面或称决策面。例如两类问题的基于最小错误率的贝叶斯决策将整个特征空间划分成两个决策域,在同一个决策域中的每一点由同一类的后验概率占主导地位。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘 照片