您的位置：首页 > 其它

《统计学习方法》第四章朴素贝叶斯学习笔记

2017-04-05 11:40 267 查看

一、极大似然估计

估计两部分参数，先验概率P(Y=ck)和条件概率P(X(j)=x(j)|Y=ck)。

1. 先验概率P(Y=ck)的极大似然估计是：

P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯,K

2. 设第j个特征x(j)可能取值的集合为{aj1,aj2,⋯,ajSj}，条件概率P(X(j)=ajl|Y=ck)的意义是在某一类Y=ck的条件下，x的第j个分量特征取值ajl的概率。

P(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)∑i=1NI(yi=ck)

j=1,2,⋯,n;l=1,2,⋯,Sj;k=1,2,⋯,K

上式中，xji是第i个样本的第j个特征；ajl是第j个特征可能取的第l个值；I为指示函数。总的需要估计的参数数量为：k∑nj=1Sj。

二、学习与分类算法

（1）计算先验概率和条件概率

P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯,K

P(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)∑i=1NI(yi=ck)

j=1,2,⋯,n;l=1,2,⋯,Sj;k=1,2,⋯,K

（2）对于给定的实例x=(x(1),x(2),⋯,x(n))T，计算

P(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck),k=1,2,⋯,K

（3）确定实例x所属的类

y=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck)

书中的一个例子：

三、贝叶斯估计

极大似然估计时参数会产生0频问题，会影响到后验概率的计算结果，使分类产生偏差。采用贝叶斯估计可以解决这个问题。

先验概率的贝叶斯估计是：

Pλ(Y=ck)=∑i=1NI(yi=ck)+λN+Kλ

上式中，K表示类别数目。

条件概率的贝叶斯估计是：

Pλ(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)+λ∑i=1NI(yi=ck)+Sjλ

上式中，Sj表示第j个特征的取值个数。

以上两个公式中，当λ=0时就是极大似然估计。常取λ=1，这时称为拉普拉斯平滑。

例子：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 统计学习方法机器学习朴素贝叶斯分类算法

相关文章推荐

新的分享

章节导航