您的位置：首页 > 其它

7.3 朴素贝叶斯分类器

2018-11-04 20:25 68 查看

朴素：属性条件独立性假设。即假设每个属性独立地对分类结果发生影响。

朴素贝叶斯分类器重写了书中的式(7.8)为：
P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)∏i=1dP(xi∣c)P(c|x) = \frac{P(c)P(x|c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^d P(x_i|c)P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c)
其中，∏i=1dP(xi∣c)=P(x1∣c)∗P(x2∣c)∗⋯∗P(xn∣c)\prod_{i=1}^d P(x_i|c) = P(x_1|c)* P(x_2|c)*\dots * P(x_n|c)∏i=1dP(xi∣c)=P(x1∣c)∗P(x2∣c)∗⋯∗P(xn∣c) 。
d为属性数目，xix_ixi为xxx在第i个属性上的取值。

基于书中式(7.6)，即h∗(x)=arg⁡max⁡cϵyP(c∣x)h^*(x) = \underset{c\epsilon{y}}{\arg\max} P(c|x)h∗(x)=cϵyargmaxP(c∣x) ,基于该式，将式(7.8)代入，（由于P(x)对所有类别来说是相同的，可以省略），可以得到下面：
hnb(x)=arg⁡max⁡cϵyP(c)∏i=1dP(xi∣c)h_{nb}(x) = \underset{c\epsilon{y}}{\arg\max} P(c)\prod_{i=1}^d P(x_i|c)hnb(x)=cϵyargmaxP(c)i=1∏dP(xi∣c)
这就是朴素贝叶斯分类器的表达式。
即给定x的情况下，贝叶斯分类器最可能出现的情况c，P(x)省略。

令DcD_cDc 表示训练集D中第c类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率：
P(c)=∣Dc∣∣D∣P(c) = \frac{|D_c|}{|D|}P(c)=∣D∣∣Dc∣
（1）对离散属性而言，令Dc,xiD_{c,x_i}Dc,xi表示DcD_cDc中在第i 个属性上取值为xix_ixi 的样本组成的集合，则条件概率P(xi∣c)P(x_i | c)P(xi∣c)可估计为:(这里不是绝对值，而表示集合大小)\red{(这里不是绝对值，而表示集合大小)}(这里不是绝对值，而表示集合大小)
P(xi∣c)=∣Dc,xi∣∣Dc∣P(x_i|c) = \frac{|D_{c,x_i}|}{|D_c|} P(xi∣c)=∣Dc∣∣Dc,xi∣
（2）对连续属性可考虑概率密度函数，假定p(xi∣c) N(μc,i,σc,i2)p(x_i|c)~N(\mu_{c,i},\sigma^2_{c,i})p(xi∣c) N(μc,i,σc,i2)，其中μc,i和σc,i2\mu_{c,i}和\sigma^2_{c,i}μc,i和σc,i2分别是第c类样本在第i个属性上取值的均值和方差，则有：
P(xi∣c)=12πσc,iexp(−(xi−μc,i)22σc,i2)P(x_i|c) = \frac{1}{\sqrt{2\pi}\sigma_{c,i}} exp(- \frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}})P(xi∣c)=2πσc,i1exp(−2σc,i2(xi−μc,i)2)

以下针对西瓜书P151中的例子进行验算：

可参考这篇文章

利用朴素贝叶斯算法训练出一个分类器,以判断一个具有特征{色泽=青绿，根蒂=蜷缩，敲声=浊响，纹理=清晰，脐部=凹陷，触感=硬滑，密度=0.697，含糖率=0.460}的测试样例（“测1”）瓜(xtestx_{test}xtest )是否为好瓜。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航