统计学习方法 第4章 朴素贝叶斯法 习题答案
2017-05-16 16:33
169 查看
1 描述
设输入空间X⊆Rn为n维向量的集合,输出空间为类标记集合Y={c1,c2,…,cK}。输入为特征向量x∈X,输出为类标记y∈Y。X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}由P(X,Y)独立同分布产生。
2 推导
P(Y|X)=P(XY)P(X)=P(X|Y)P(Y)P(X)y=f(x)=argmaxckP(X|Y=ck)P(Y=ck)P(X)=argmaxckP(X|Y=ck)P(Y=ck)=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)
朴素贝叶斯法是典型的生成学习方法。
3 含义
朴素贝叶斯分类用的是概率模型y=P(Y|X)。为什么要这样呢?损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
假设选择0−1损失函数:
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
这时,期望风险函数为
Rexp(f)=E[L(Y,f(X))]=EX∑k=1KL(ck,f(X))P(ck|X)
为了使期望风险最小化,只需对X=x逐个极小化,由此得到:
f(x)=argminy∈Y∑k=1KL(ck,y)P(ck|X=x)=argminy∈YP(y≠ck|X=x)=argminy∈Y(1−P(y=ck|X=x))=argmaxy∈YP(y=ck|X=x)
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
f(x)=argmaxckP(ck|X=x)
4 参数估计
学习意味着估计P(Y=ck)和P(X(j)=x(j)|Y=ck)。4.1极大似然估计法
P(Y=ck)=∑Ni=1I(yi=ck)N,k=1,2,…,K(4.8)设第j个特征可能的取值的集合为{aj1,aj2,…,ajSj}
P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck)j=1,2,…,N;l=1,2,…,Sj;k=1,2,…,K(4.9)
4.2贝叶斯估计
Pλ(Y=ck)=∑Ni=1I(yi=ck)+λN+Kλ,k=1,2,…,K(4.10)设第j个特征可能的取值的集合为{aj1,aj2,…,ajSj}
P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλj=1,2,…,N;l=1,2,…,Sj;k=1,2,…,K(4.11)
常取λ=1,这时称为拉普拉斯平滑。
5 习题
4.1 用极大似然估计法推出朴素贝叶斯法中的概率公式(4.8)及公式(4.9)设θk=P(Y=ck),k=1,2,…,K
Ik=∑Ni=1I(yi=ck)
L(θ1,θ2,…,θK)=∏i=1NP(yi)=∏k=1KθIkk
其中∑Kk=1θk=1,∑Ni=1Ik=N。
l(θ)=logL(θ)=∑k=1KIklogθk=∑k=1K−1Iklogθk+(1−∑k=1K−1Ik)log(1−∑k=1K−1θk)
对它求导,求使导数为0的θ值。
∂l(θ)∂θk即Ikθk=IKθK,(k=1,2,…,K−1)设Ikθk=x,(k=1,2,…,K)Ikx=θk∑k=1KIkx=∑k=1KθkNx=1x=N即Ikθk=Nθk=IkN即(4.8)=Ikθk−(1−∑K−1k=1Ik)1−∑K−1k=1θk=Ikθk−IKθK=0
(4.9)同理
4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)
贝叶斯估计和传统的极大似然估计的区别就是,参数值是固定的还是也当做随机变量。传统的极大似然估计,把参数θ当做固定的一个值,不变的,只是目前还不知道,通过最大化L求出θ;贝叶斯估计认为参数θ也是随机变量,它也服从一个分布(β分布)。
设:
θk=P(Y=ck),k=1,2,…,K
Ik=∑Ni=1I(yi=ck)
θ服从β分布:P(θ)=P(θ1,θ2,…,θK)=∏Ki=1θaii,在对系统类别分布一无所知的情况下,可以假设类别是均匀分布的,也就是a1=a2=⋯=aK,那么θ分布可以写成P(θ)=∏Ki=1θλi。
整体事件发生的概率如下:
L(θ)=P(Y1,Y2,…,YN,θ)=∏i=1NP(Yi)P(θ)=∏k=1KθIkkθλk=∏k=1KθIk+λk
参数θ=argmaxθL(θ)为了便于计算,对上式两边求对数,如下:
l(θ)=∑k=1K(Ik+λ)logθk
其中∑Kk=1θk=1,∑Ni=1Ik=N。
对l(θ)求偏导数,使其为0,得到参数θ。
∂l(θ)∂θk=Ik+λθk−IK+λθK=0.
由上式可得:θk=Ik+λIK+λθK,把所有θk加在一块得:
∑k=1Kθk1=∑k=1KIk+λIK+λθK=N+KλIK+λθK
得:θk=IK+λN+Kλ
即式(4.10)。(4.11)略。
相关文章推荐
- 李航 统计学习方法 第五章 决策树 课后 习题 答案
- 李航 统计学习方法 第一章 课后 习题 答案
- 统计学习方法 第4章 朴素贝叶斯法
- 统计学习方法第十章习题答案
- 李航 统计学习方法 第一章 课后 习题 答案
- 李航—统计学习方法第四章课后答案
- 统计学习方法 习题5.1 c4.5实现
- 统计学习方法---朴素贝叶斯法
- 李航 统计学习方法第十章 HMM 答案
- 李航《统计学习方法》第4章习题答案参考
- C++程序设计(第2版)课后习题答案--第4章
- 统计学习方法笔记,第四章朴素贝叶斯法
- <统计学习方法>3 朴素贝叶斯法(Naive Bayes)
- 李航统计学习方法-朴素贝叶斯法
- 李航—统计学习方法第四章课后答案
- 统计学习方法 李航---第4章 朴素贝叶斯法
- 统计学习方法 习题5.2 python实现
- 计算机网络第4章及第5章课后习题答案
- 统计学习方法—4.朴素贝叶斯法
- 统计学习方法 李航 第一章习题