极大似然估计&最大后验概率估计
2015-10-10 17:21
211 查看
https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/
http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf
经验风险最小化:
结构风险最小化:
李航博士《统计学习方法》中第一章第九页中有两个论断
1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
证明论断1:
极大似然估计:对于观测的随机变量D,其总体分布为
S为抽样得到的样本,
样本是独立同分布得到的,因此样本的分布为
当
确定,则上式可以看做是
的函数。
这个函数反映了在观察结果已知的情况下,
的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个
去做
的估计,这种估计方法叫做"极大似然估计"。取对数,极大平均似然函数为:
上式等价于
在统计学习中,S就是样本,
当模型是条件概率分布时,则
当损失函数是对数损失函数(
),则最小化经验风险的公式为
对比(1)(2)两个公式,论断1得证。
证明论断2
极大似然估计将
看做是一个确定但未知的常量,而贝叶斯学派则认为
可以看做一个随机变量,从这个视角出发可得到条件概率
因此利用贝叶斯公式得到
最大后验概率估计是要最大化
这个后验概率,因此
上式与极大似然估计相比,只多了个
,左边和极大似然估计一样,因此对左边取对数处理求平均似然最大
当模型是条件概率分布时,则
因此,
取负号,转换为
当损失函数是对数损失函数(
),模型是条件概率分布时,
结构风险最小化公式
比较公式(3)(4),则当
两者等价,论断2得证。
(汉武提问,
在(4)中没有出现,其实
为超参,在模型中一般首先指定,如果为1/2 , 则
), 所以无论怎么取,都可以得到对应的使得等价。
http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf
经验风险最小化:
\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) |
\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f) |
1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
证明论断1:
极大似然估计:对于观测的随机变量D,其总体分布为
P(D;\theta) |
S=(s_1,s_2,...,s_N) |
L(\theta) = \prod_{i=1}^{N} P(s_i;\theta) |
S=(s_1,s_2,...,s_N) |
\theta |
这个函数反映了在观察结果已知的情况下,
\theta |
\theta_{*} |
\theta |
\max log L(\theta)=\max \frac{1}{N}\sum_{i=1}^{N}log P(s_i;\theta) |
\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(s_i;\theta) |
s_{i}=(x_i,y_i).x_i\mbox{为特征,}y_i{为标签} |
P(s_i;\theta)=P(y_i|x_i;\theta) |
\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta) -----(1) |
L(Y,P(Y|X)) = -log P(Y|X) |
\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,p(y_i|x_i;\theta)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} -log p(y_i|x_i;\theta) -----(2) |
证明论断2
极大似然估计将
\theta |
\theta |
P(\theta|S) |
P(\theta|S)=\frac{P(S|\theta)P(\theta)}{P(S)} |
P(\theta|S) |
\max P(\theta|S) = \max P(S|\theta)P(\theta) |
P(\theta) |
\max \frac{1}{N}\sum_{i=1}^{N} log P(s_i|\theta)+log P(\theta) |
P(s_i;\theta)=P(y_i|x_i;\theta) |
\max \frac{1}{N}\sum_{i=1}^{N} log P(y_i|x_i;\theta)+log P(\theta) |
\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta)-log P(\theta) -----(3) |
L(Y,P(Y|X)) = -log P(Y|X) |
结构风险最小化公式
\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f) =\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} -log P(y_i|x_i;\theta)+\lambda J(f) -----(4) |
\lambda J(f) = -log P(\theta) |
(汉武提问,
\lambda |
\lambda |
-1/2*2log P(\theta) |
相关文章推荐
- 学习笔记--javaWeb-servlet学习1
- eclipse出现java.lang.ClassNotFoundException: Didn't find class "xxx" on path: DexP...解决方案
- java知识点大全
- java知识点大全
- Android Notification几个特殊的视图
- [两种方法]win7系统的打印机服务如何启动?
- Eclipse 工程引用 与 Jar打包
- 11个超棒的iOS开发学习网站
- SQL Server ->> 生成时间类型的Partition Function和Partition Scheme代码
- 创建SDK时NSLog的解决办法
- 调试开源应用《酷欧天气》小结
- 单片机IO驱动LCD
- 重启或杀掉nginx进程后丢失nginx.pid
- 加密解密与数字签名
- 简单统计代码行数
- 使用GDI+进行图片处理时要注意的问题
- 查看oracle执行计划(命令实现)
- 杭电ACMA + B Problem II问题解析
- vs2010运行C程序时,运行结果窗口一闪而过
- Android中Handler引起的内存泄露