您的位置:首页 > 其它

机器学习——基于概率论的分类方法:朴素贝叶斯

2017-03-18 16:53 423 查看
一.贝叶斯概述:

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。

用一个比较直接的方式来描述一下,我们现在用p1(x,y)表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率,那么对于一个新数据点(x0,y0),可以用下面的规则来判断它的类别:

如果p1(x0,y0)
> p2(x0,y0),那么类别为1

如果p1(x0,y0)
< p2(x0,y0),那么类别为2

也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择最高概率的决策。

二,朴素贝叶斯的优缺点:

优点:在数据较少的情况下依然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

适用数据类型:标称型数据。

三.决策树创建分支伪代码:

1.求出先验概率

2.如果是离散属性,利用条件概率来求,如果是连续性属性,可考虑概率密度函数

3.利用贝叶斯判断准则

(利用到的一些公式见四)

四.利用到的一些公式

令Dc表示训练集D中c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:

P(c)
= |Dc| / |D|

对离散属性而言,令Dc,xi
表示Dc中在地i个属性上取值为xi的样本组成的集合,则条件概率P(xi | c)可估计为:

P(xi
| c) = |Dc,xi | / |Dc|

对连续性可考虑概率密度函数,假定

,其中



分别是第c类样本在第i个属性上方差和取值,则有:



简化之后的贝叶斯判定准则:



注意:如果连乘过程

中遇到0,可以分子分母上下补一个常数,另外,如果连乘的数字都比较小,为了防止程序出现下溢出或则得到不正确的结果,可以用log来取对数。

参考文献:机器学习(周志华),机器学习实战
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: