您的位置:首页 > 其它

贝叶斯决策论

2017-05-17 15:56 148 查看
本文摘自《机器学习》,清华大学出版社,周志华著

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们用多分类任务为例来解释其基本原理。

假设有N中可能的类别标记,即y=c1,c1,...,cN,λij是一个真实标记为cj的样本误分类为ci所产生的损失。基于后验概率P(ci|x)可获得将样本x分类为ci所产生的期望损失(expected loss),即在样本x上的“条件风险”(conditional risk)。

R(ci|x)=∑Nj=1λijP(cj|x)公式(1)

我们的任务是寻找一个判定准则h:x→y以最小化总体风险。

R(h)=Ex[R(h(x)|x)]公式(2)

显然,对每个样本x,若h能最小化条件风险R(h(x)|x),则总体风险也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c|x)最小的类别标记,即

h∗(x)=argc∈yminR(c|x)公式(3)

此时,h∗称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险R(h∗)称为贝叶斯风险(Bayes risk)。1−R(h∗)反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上线。

具体来说,若目标是最小化分类错误率,则误判损失λij可写为:

λij={0,if i=j1,otherwise

此时条件风险

R(c|x)=1−P(c|x)公式(4)

于是,最小化分类错误的贝叶斯最优分类器为

h∗(x)=argc∈ymaxP(c|x)公式(5)

即对每个样本x,选择能使后验概率P(c|x)最大的类别标记。

不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x)。然而,在现实任务中这通常难以直接获得。从这个角度来看,机器学习所实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。大体来说,主要有两种策略:给定x,可通过直接建模P(c|x)来预测c,这样得到的是“判别式模型(discrimination models)”;也可以先对联合概率分布P(x,c)建模,然后再由此获得P(c|x),这样得到的是“生成式模型”(generation models)。显然,前面介绍的决策树、BP神经网络、支持向量机,都可归入判别式模型的范畴。对生成式模型来说,必然考虑:

P(c|x)=P(x,c)P(x)公式(6)

基于贝叶斯定理,P(c|x)可写为:

P(c|x)=P(c)P(x|c)P(x)公式(7)

其中,P(c)是类“先验”(prior)概率;P(x|c)是样本x相对于类标记c的类条件概率(class-conditional probability),或称为“似然”(likelihood);P(x)是用于归一化的“证据”(evidence)因子。对给定样本x,证据因子P(x)与类标记无关,因此估计P(c|x)的问题就转化为如何基于训练数据D来估计先验P(c)和似然P(x|c)。

类先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定率,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。

对类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本的d个属性都是二值的,则样本将有2d种可能的取值,在现实应用中,这个值往往远大于训练样本数m,也就是说,很多样本取值在训练集中根本没有出现,直接使用频率估计P(x|c)显然不可行,因为“未被观测到”与“出现概率为零”通常是不同的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息