您的位置:首页 > 其它

统计学习方法 第4章 朴素贝叶斯法 习题答案

2017-05-16 16:33 169 查看

1 描述

设输入空间X⊆Rn为n维向量的集合,输出空间为类标记集合Y={c1,c2,…,cK}。输入为特征向量x∈X,输出为类标记y∈Y。X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集

T={(x1,y1),(x2,y2),…,(xN,yN)}由P(X,Y)独立同分布产生。

2 推导

P(Y|X)=P(XY)P(X)=P(X|Y)P(Y)P(X)

y=f(x)=argmaxckP(X|Y=ck)P(Y=ck)P(X)=argmaxckP(X|Y=ck)P(Y=ck)=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)

朴素贝叶斯法是典型的生成学习方法。

3 含义

朴素贝叶斯分类用的是概率模型y=P(Y|X)。为什么要这样呢?

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

假设选择0−1损失函数:

L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

这时,期望风险函数为

Rexp(f)=E[L(Y,f(X))]=EX∑k=1KL(ck,f(X))P(ck|X)

为了使期望风险最小化,只需对X=x逐个极小化,由此得到:

f(x)=argminy∈Y∑k=1KL(ck,y)P(ck|X=x)=argminy∈YP(y≠ck|X=x)=argminy∈Y(1−P(y=ck|X=x))=argmaxy∈YP(y=ck|X=x)

这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:

f(x)=argmaxckP(ck|X=x)

4 参数估计

学习意味着估计P(Y=ck)和P(X(j)=x(j)|Y=ck)。

4.1极大似然估计法

P(Y=ck)=∑Ni=1I(yi=ck)N,k=1,2,…,K(4.8)

设第j个特征可能的取值的集合为{aj1,aj2,…,ajSj}

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck)j=1,2,…,N;l=1,2,…,Sj;k=1,2,…,K(4.9)

4.2贝叶斯估计

Pλ(Y=ck)=∑Ni=1I(yi=ck)+λN+Kλ,k=1,2,…,K(4.10)

设第j个特征可能的取值的集合为{aj1,aj2,…,ajSj}

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλj=1,2,…,N;l=1,2,…,Sj;k=1,2,…,K(4.11)

常取λ=1,这时称为拉普拉斯平滑。

5 习题

4.1 用极大似然估计法推出朴素贝叶斯法中的概率公式(4.8)及公式(4.9)

设θk=P(Y=ck),k=1,2,…,K

Ik=∑Ni=1I(yi=ck)

L(θ1,θ2,…,θK)=∏i=1NP(yi)=∏k=1KθIkk

其中∑Kk=1θk=1,∑Ni=1Ik=N。

l(θ)=logL(θ)=∑k=1KIklogθk=∑k=1K−1Iklogθk+(1−∑k=1K−1Ik)log(1−∑k=1K−1θk)

对它求导,求使导数为0的θ值。

∂l(θ)∂θk即Ikθk=IKθK,(k=1,2,…,K−1)设Ikθk=x,(k=1,2,…,K)Ikx=θk∑k=1KIkx=∑k=1KθkNx=1x=N即Ikθk=Nθk=IkN即(4.8)=Ikθk−(1−∑K−1k=1Ik)1−∑K−1k=1θk=Ikθk−IKθK=0

(4.9)同理

4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)

贝叶斯估计和传统的极大似然估计的区别就是,参数值是固定的还是也当做随机变量。传统的极大似然估计,把参数θ当做固定的一个值,不变的,只是目前还不知道,通过最大化L求出θ;贝叶斯估计认为参数θ也是随机变量,它也服从一个分布(β分布)。

设:

θk=P(Y=ck),k=1,2,…,K

Ik=∑Ni=1I(yi=ck)

θ服从β分布:P(θ)=P(θ1,θ2,…,θK)=∏Ki=1θaii,在对系统类别分布一无所知的情况下,可以假设类别是均匀分布的,也就是a1=a2=⋯=aK,那么θ分布可以写成P(θ)=∏Ki=1θλi。

整体事件发生的概率如下:

L(θ)=P(Y1,Y2,…,YN,θ)=∏i=1NP(Yi)P(θ)=∏k=1KθIkkθλk=∏k=1KθIk+λk

参数θ=argmaxθL(θ)为了便于计算,对上式两边求对数,如下:

l(θ)=∑k=1K(Ik+λ)logθk

其中∑Kk=1θk=1,∑Ni=1Ik=N。

对l(θ)求偏导数,使其为0,得到参数θ。

∂l(θ)∂θk=Ik+λθk−IK+λθK=0.

由上式可得:θk=Ik+λIK+λθK,把所有θk加在一块得:

∑k=1Kθk1=∑k=1KIk+λIK+λθK=N+KλIK+λθK

得:θk=IK+λN+Kλ

即式(4.10)。(4.11)略。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息