概率密度分布
2015-12-31 15:45
197 查看
参数密度估计
大多数实际应用过程中,缺乏概率分布的具体解析式,因此需要通过所观察到的样本进行进行估计,通常分为:参数估计
非参数估计
参数估计
已知:概率分布的解析表达式求解:确定表达式中的参数
主要方法
最大似然估计(频率学派)最大后验概率估计(多个先验,贝叶斯学派)
贝叶斯推理
最大熵模型
混合模型(EM算法)
最大似然估计
算法1)把参数当做未知实数(不是变量) ------频率学派 2)需要解析式,很多时候是困难的。解析式是正态分布时,等同于最小二乘法。
随机样本x1,x2,...,xNx_1,x_2,...,x_N来自概率分布p(x;θ)p(x;\theta)
假设样本对立,则联合概率:
p(X;θ)=p(x1,x2,...,xN;θ)=∏k=1Np(xk;θ)p(X;\theta) = p(x_1,x_2,...,x_N;\theta)=\prod_{k=1}^Np(x_k;\theta)
最大似然方法(max likelihood)估计使似然函数取最大值(一般来说先取对数,方便计算)
θ¯ML=argmaxθ∏k=1Kp(xk;θ) \bar{\theta}_{ML} = argmax_\theta \prod_{k=1}^Kp(x_k;\theta)
导数为零,进行求解。(或者其他有效的最优化技术,如梯度下降算法等)。
∂∏Kk=1p(xk;θ)∂θ=0 \frac{\partial\prod_{k=1}^Kp(x_k;\theta)}{\partial\theta}=0
多数的方程会不可导,可以查阅相关资料进行最优化
[b]具体细节[/b]
一般去对数似然函数,大多数也是这么做的,求解方便(如高斯公式取对数)
L(θ)=ln∏k=1Np(xk;θ)L(\theta) = ln \prod_{k=1}^Np(x_k;\theta)
∂L(θ)∂θ=∑k=1N∂lnp(xk;θ)∂θ=∑k=1N1p(xk;θ)∂p(xk;θ)∂θ=0 \frac{\partial L(\theta)}{\partial \theta}
= \sum_{k=1}^N \frac{\partial lnp(x_k;\theta)}{\partial \theta}
=\sum_{k=1}^N \frac{1}{p(x_k;\theta)} \frac{\partial p(x_k;\theta)}{\partial \theta}=0
我们可以看出,原来需要对整个连乘公式求偏导,现在需要为每个概率公式求偏导,然后累加。许多公式本身求偏导是有很多良好性质(logister等),计算很简便。
[b]性质[/b]
渐进无偏估计(无偏性,根据定义证明即可)
渐进一致的
渐进高效的,最小方差值
参数估计的质量
我们假设有一个理想的模型(我们的目标,也是模式识别的基础),但是目前手里只有一些抽样出来的样本。我们可以认为,学习出来的模型是基于少量样本的,但是我们追求的是适用于所有样本的模型。
当前模型估计的越复杂,那么在该数据集上(目前训练集上)准确性越好,那么模型的鲁棒性(在所有样本上)就会有所下降 当前模型估计的越简单,那么在该数据集上准确性就有所下降,但是模型的鲁棒性会相对上升。
我们不知道目前数据集的可靠性,做的太好(过分推理,过拟合),在测试集上就不一定表现的很好。做的太差(欠拟合,从训练样本中,学习了很少),在测试集上表现平平。这边说的做的太好,做的太差,当然是相对于训练集的。
因此,到底要做怎么样的平衡,通常就是借助验证集来评判。
偏差:真实值与估计值的距离(训练集上的表现)
方差:对于不同数据集,参数估计值的变化
对于高斯分布而言,我们很容易证明:
均值估计是无偏的
方差估计是有偏的(样本很大的时候,偏差消失。因为,当样本很大,先验作用开始不明显,也就是频率学认为先验来自于样本。或者可以从贝叶斯公式也能看出。)
最大后验概率估计
算法最大后验概率认为θ\theta是随机变量。而不是一个未知参数。(两派之争)
后验概率:
p(θ|X),X=x1,x2,...,xNp(\theta|X), X = {x_1,x_2,...,x_N}
根据贝叶斯定理求出后验概率,然后最大化后验概率(MAP)
p(θ|X)=p(X|θ)p(θ)p(X)p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}
导数为零,进行求解。(或者其他有效的最优化技术)。
∂p(θ|X)∂θ=0或者∂p(X|θ)p(θ)∂θ=0\frac{\partial p(\theta|X)}{\partial \theta}=0
或者
\frac{\partial p(X|\theta)p(\theta)}{\partial \theta}=0
[b]讨论[/b]
主要差别在于先验(当先验相同时,或者差别不大时,其差别很小)
贝叶斯推理
算法已知NN个样本集合XX和先验概率P(θ)P(\theta),计算条件概率密度函数p(x|X)p(x|X)
p(x|X)=∫p(x|θ)p(θ|X)dθp(x|X) = \int p(x|\theta)p(\theta|X)d\theta
其中
p(θ|X)=p(X|θ)p(θ)p(X)=p(X|θ)p(θ)∫p(X|θ)p(θ)dθp(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}
p(X|θ)=∏k=1Np(xk|θ)p(X|\theta) = \prod_{k=1}^N p(x_k|\theta)
最大熵
熵是系统不确定性的度量
定义:
H=−∫xp(x)lnp(x)dxH = - \int_x p(x)ln p(x) dx
在具体应用是,只需要看看概率密度函数需要满足那些条件即可。
若均值和方差作为其它约束,对于,概率密度函数的最大熵估计为高斯分布
混合模型
线性组合表示p(x)p(x)p(x)=∑j=1Jp(x|j)Pjp(x) = \sum_{j=1}^J p(x|j)P_j
其中需要满足一些概率性质(和为1)
∑j=1JPj=1,∫xp(x|j)dx=1\sum_{j=1}^J P_j = 1 , \int_x p(x|j) dx = 1
选取合适,可以近似任何连续的密度函数
[b]准备工作[/b]
选取相关密度组成函数 p(x|j)p(x|j),也就是p(x|j;θ)p(x|j;\theta)
根据观察样本,求解相关参数θ,Pj\theta,P_j
[b]方法[/b]
最大化似然函数
∏kp(xk;θ,P1,P2,...,PJ)\prod_k p(x_k;\theta,P_1,P_2,...,P_J)
难以求解最大值,本质上缺少标签信息,无监督的问题。EM算法可以求解此类问题。
[b]EM算法[/b]
有监督学习问题中,概率密度函数为py(y;θ)p_y(y;\theta)
那么在无监督中,
px(x;θ)=∫Y(x)py(y;θ)dyp_x(x;\theta) = \int_{Y(x)} p_y(y;\theta) dy
最大似然估计
∑k∂lnpy(yk;θ)∂θ=0\sum_k \frac {\partial lnp_y(y_k;\theta) }{\partial \theta} = 0
EM 在观察样本和θ\theta当前估计的条件下最大化似然函数的期望
算法流程
1)计算期望
Q(θ;theta(t))=E[∑kln(py(yk;θ|X;;θ(t)))]Q(\theta;theta(t)) = E[\sum_k ln(p_y(y_k;\theta|X;;\theta(t)))]
2)最大化
∂Q(θ;θ(t))∂θ=0\frac{\partial Q(\theta;\theta(t))}{\partial \theta}=0
似然函数一直在不断增大,直至收敛
[b]讨论[/b]
假设有标签
p(xk,jk;θ)=p(xk|jk;θ)Pjkp(x_k,j_k;\theta) = p(x_k|j_k;\theta)P_{jk}
似然
L(θ)=∑k=1Nln(p(xk|jk;θ)Pjk)L(\theta) = \sum_{k=1}^N ln(p(x_k|j_k;\theta)P_{jk})
上课笔记
相关文章推荐
- FZU2215 Simple Polynomial Problem(中缀表达求值)
- mosquitto 管理常用命令
- NAT Network Address Translation,网络地址转换
- 项目管理参考书推荐
- 十二月英语学习总结-希冀
- [Windows Server 2008] Ecshop安全设置
- IOS安全、逆向、反编译
- jdk 1.7环境下编译打包1.6版本的jar包
- 使用串行线程实现图片瀑布流加载
- github使用简介
- dos保存adb logcat读取的Android信息
- 女神-小彩旗
- 快速学习AngularJs HTTP响应拦截器
- SOA--架构设计师与SOA, 第 1 部分
- 模式识别学习笔记(一)
- Android Studio报有ava JDK valu exit 2...错误
- gcc 5.2.0 编译安装笔记-20151110
- 反射给对象赋值遇到的问题——类型转换
- oc 基础知识总结三 nil、null、NULL、NSNull的区别
- Tomcat的Session管理机制