判别分析基础
2016-03-29 12:46
218 查看
与聚类分析的比较
判别分析是判别样品所属类型的一种统计方法。
判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。距离判别也称为直观判别。
(一)距离判别法
对各类总体的分布并无特定要求
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值;
判别准则:对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。
分两种情况,如果各类协方差阵相等,则建立的判别函数为线性判别函数;如果各类协方差阵不相等,则建立的判别函数为二次函数。
(二)Fisher判别法
按类内方差尽量小,类间方差尽量大的准则来求判别函数的。
该方法的基本思想是投影,即将原来空间的自变量组合投影到维度较低的空间去,然后再进行分类。(线性判别法LDA)
注意:
构造判别式的样品个数必须至少是指标个数的两倍;构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,还会影响预报的稳定性,在建立判别式之前,应挑选对分类特别有关系的指标。
(三)Bayes判别法
首先需要知道待判总体的先验概率和密度函数(概率函数),当取得样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,通过后验概率分布进行各种统计推断。
实际中遇到的许多总体往往服从正态分布,所以常用的是正态总体的判别函数,此时分两种情况:一是假设所有总体的协方差阵相等,这时的判别函数为线性判别函数,即判别函数是从各类合并的协方差阵得来;二是所有总体的协方差阵不等,此时的判别函数为非线性判别函数,即判别函数是从各类协方差阵得来。
如果总体的分布未知或不服从正态分布,可用非参数方法,来估计类别密度实现分类。此类非参数法包括(kernel method)核密度估计法和KNN最近邻法
(四)逐步判别法
类似于回归分析,这是一种变量选择的方法,选择判别能力高的变量。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。
逐步判别法要求指标变量在各组内服从多元正态分布,并且具有相同的协方差阵。因此各个类之间的统计差别表现在均值向量上。若各个均值相等,则各个总体的统计差异不显著,在此基础上建立判别函数肯定不好。就产生了对各个类均值的假设检验。
用前进法选择变量时,stepdisc过程依据每一个变量对判别效能贡献(由WILKs` lambda值及相应统计量进行判断)的大小次序排序,将贡献最大者作为待选择变量,然后判断该变量是否达到事先指定的变量选入标准(依据方差分析的F检验)。
用后退法选择变量时,最初的判别模型包括了所有待选择的变量,在后续操作的每一步,依据每一个变量对判别效能贡献的大小次序,将贡献最小者作为考察变量,判断该变量是否达到事先指定的变量剔除标准,如果是则将其剔除模型,直到留下的变量没有达到事先指定的变量剔除标准。
用逐步法选择变量时,最初的判别模型与用前进法时的相同,未包含任何变量。后续的每一步操作中,先对已选入模型的变量进行比较,进行剔除操作,再对未入选的变量进行选入操作,重复以上步骤,直到模型中的变量没有任何一个达到剔除标准并且模型外的变量没有任何一个达到选入标准。
要注意的是,在选入变量的过程中,每一步只选择一个变量进入模型,而且在此过程中并未考虑模型外变量之间的关系问题,因此一些重要的变量可能会被排出在模型外,因此在实际应用中,要善于用交叉验证结果对判别模型进行恰当的评价,Wilks` lambda值也并不总是评价判别效能的最佳指标。
判别方法的比较:
Fisher判别法随着总体变量个数的增加,判别式也增加,因此计算起来比较麻烦。Bayes判别法对多个总体的判别考虑的不是建立判别式,而是计算新样品属于各总体的条件概率,将新样品判给来自概率最大的总体。
一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。
附上上文结构:
判别分析是判别样品所属类型的一种统计方法。
判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。距离判别也称为直观判别。
(一)距离判别法
对各类总体的分布并无特定要求
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值;
判别准则:对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。
分两种情况,如果各类协方差阵相等,则建立的判别函数为线性判别函数;如果各类协方差阵不相等,则建立的判别函数为二次函数。
(二)Fisher判别法
按类内方差尽量小,类间方差尽量大的准则来求判别函数的。
该方法的基本思想是投影,即将原来空间的自变量组合投影到维度较低的空间去,然后再进行分类。(线性判别法LDA)
注意:
构造判别式的样品个数必须至少是指标个数的两倍;构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,还会影响预报的稳定性,在建立判别式之前,应挑选对分类特别有关系的指标。
(三)Bayes判别法
首先需要知道待判总体的先验概率和密度函数(概率函数),当取得样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,通过后验概率分布进行各种统计推断。
实际中遇到的许多总体往往服从正态分布,所以常用的是正态总体的判别函数,此时分两种情况:一是假设所有总体的协方差阵相等,这时的判别函数为线性判别函数,即判别函数是从各类合并的协方差阵得来;二是所有总体的协方差阵不等,此时的判别函数为非线性判别函数,即判别函数是从各类协方差阵得来。
如果总体的分布未知或不服从正态分布,可用非参数方法,来估计类别密度实现分类。此类非参数法包括(kernel method)核密度估计法和KNN最近邻法
(四)逐步判别法
类似于回归分析,这是一种变量选择的方法,选择判别能力高的变量。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。
逐步判别法要求指标变量在各组内服从多元正态分布,并且具有相同的协方差阵。因此各个类之间的统计差别表现在均值向量上。若各个均值相等,则各个总体的统计差异不显著,在此基础上建立判别函数肯定不好。就产生了对各个类均值的假设检验。
用前进法选择变量时,stepdisc过程依据每一个变量对判别效能贡献(由WILKs` lambda值及相应统计量进行判断)的大小次序排序,将贡献最大者作为待选择变量,然后判断该变量是否达到事先指定的变量选入标准(依据方差分析的F检验)。
用后退法选择变量时,最初的判别模型包括了所有待选择的变量,在后续操作的每一步,依据每一个变量对判别效能贡献的大小次序,将贡献最小者作为考察变量,判断该变量是否达到事先指定的变量剔除标准,如果是则将其剔除模型,直到留下的变量没有达到事先指定的变量剔除标准。
用逐步法选择变量时,最初的判别模型与用前进法时的相同,未包含任何变量。后续的每一步操作中,先对已选入模型的变量进行比较,进行剔除操作,再对未入选的变量进行选入操作,重复以上步骤,直到模型中的变量没有任何一个达到剔除标准并且模型外的变量没有任何一个达到选入标准。
要注意的是,在选入变量的过程中,每一步只选择一个变量进入模型,而且在此过程中并未考虑模型外变量之间的关系问题,因此一些重要的变量可能会被排出在模型外,因此在实际应用中,要善于用交叉验证结果对判别模型进行恰当的评价,Wilks` lambda值也并不总是评价判别效能的最佳指标。
判别方法的比较:
Fisher判别法随着总体变量个数的增加,判别式也增加,因此计算起来比较麻烦。Bayes判别法对多个总体的判别考虑的不是建立判别式,而是计算新样品属于各总体的条件概率,将新样品判给来自概率最大的总体。
一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。
附上上文结构:
相关文章推荐
- sqlite3之sqlite3_busy_handler使用详解
- 签到题2016.3.29
- androidStudio中出现finished with non-zero exit value 2 或者 finished with non-zero exit value 1
- 生活不止眼前的苟且,还有诗和远方。
- 十大类库
- codeforces 658C C. Bear and Forgotten Tree 3(tree+乱搞)
- android基础学习之动画基础
- Cocos2dx动作篇
- op cache config
- cf23C Oranges and Apples (贪心_好题)
- IOS开发-UI学习-使用代码创建button
- mysqll底层分享(一):MySQL索引背后的数据结构及算法原理
- PL/SQL developer连接oracle
- python 调用shell命令三种方法
- 【Oracle】OCR的备份和恢复之导出导入
- 漏洞大爆光:QQ漏洞、飞秋漏洞、360浏览器劫持…
- python 调用shell命令三种方法
- VK Cup 2016 - Round 1 (Div. 2 Edition) C. Bear and Forgotten Tree 3
- openfile
- 大数据项目实践指南(总体思路)