您的位置:首页 > 其它

概率密度分布

2015-12-31 15:45 197 查看

参数密度估计

大多数实际应用过程中,缺乏概率分布的具体解析式,因此需要通过所观察到的样本进行进行估计,通常分为:

参数估计

非参数估计

参数估计

已知:概率分布的解析表达式

求解:确定表达式中的参数

主要方法

最大似然估计(频率学派)

最大后验概率估计(多个先验,贝叶斯学派)

贝叶斯推理

最大熵模型

混合模型(EM算法)

最大似然估计

算法

1)把参数当做未知实数(不是变量) ------频率学派
2)需要解析式,很多时候是困难的。解析式是正态分布时,等同于最小二乘法。


随机样本x1,x2,...,xNx_1,x_2,...,x_N来自概率分布p(x;θ)p(x;\theta)

假设样本对立,则联合概率:

p(X;θ)=p(x1,x2,...,xN;θ)=∏k=1Np(xk;θ)p(X;\theta) = p(x_1,x_2,...,x_N;\theta)=\prod_{k=1}^Np(x_k;\theta)

最大似然方法(max likelihood)估计使似然函数取最大值(一般来说先取对数,方便计算)

θ¯ML=argmaxθ∏k=1Kp(xk;θ) \bar{\theta}_{ML} = argmax_\theta \prod_{k=1}^Kp(x_k;\theta)

导数为零,进行求解。(或者其他有效的最优化技术,如梯度下降算法等)。

∂∏Kk=1p(xk;θ)∂θ=0 \frac{\partial\prod_{k=1}^Kp(x_k;\theta)}{\partial\theta}=0

多数的方程会不可导,可以查阅相关资料进行最优化


[b]具体细节[/b]

一般去对数似然函数,大多数也是这么做的,求解方便(如高斯公式取对数)

L(θ)=ln∏k=1Np(xk;θ)L(\theta) = ln \prod_{k=1}^Np(x_k;\theta)

∂L(θ)∂θ=∑k=1N∂lnp(xk;θ)∂θ=∑k=1N1p(xk;θ)∂p(xk;θ)∂θ=0 \frac{\partial L(\theta)}{\partial \theta}
= \sum_{k=1}^N \frac{\partial lnp(x_k;\theta)}{\partial \theta}
=\sum_{k=1}^N \frac{1}{p(x_k;\theta)} \frac{\partial p(x_k;\theta)}{\partial \theta}=0

我们可以看出,原来需要对整个连乘公式求偏导,现在需要为每个概率公式求偏导,然后累加。许多公式本身求偏导是有很多良好性质(logister等),计算很简便。

[b]性质[/b]

渐进无偏估计(无偏性,根据定义证明即可)

渐进一致的

渐进高效的,最小方差值

参数估计的质量

我们假设有一个理想的模型(我们的目标,也是模式识别的基础),但是目前手里只有一些抽样出来的样本。我们可以认为,学习出来的模型是基于少量样本的,但是我们追求的是适用于所有样本的模型。

当前模型估计的越复杂,那么在该数据集上(目前训练集上)准确性越好,那么模型的鲁棒性(在所有样本上)就会有所下降
当前模型估计的越简单,那么在该数据集上准确性就有所下降,但是模型的鲁棒性会相对上升。


我们不知道目前数据集的可靠性,做的太好(过分推理,过拟合),在测试集上就不一定表现的很好。做的太差(欠拟合,从训练样本中,学习了很少),在测试集上表现平平。这边说的做的太好,做的太差,当然是相对于训练集的。

因此,到底要做怎么样的平衡,通常就是借助验证集来评判。

偏差:真实值与估计值的距离(训练集上的表现

方差:对于不同数据集,参数估计值的变化

对于高斯分布而言,我们很容易证明:

均值估计是无偏的

方差估计是有偏的(样本很大的时候,偏差消失。因为,当样本很大,先验作用开始不明显,也就是频率学认为先验来自于样本。或者可以从贝叶斯公式也能看出。)

最大后验概率估计

算法

最大后验概率认为θ\theta是随机变量。而不是一个未知参数。(两派之争)

后验概率:

p(θ|X),X=x1,x2,...,xNp(\theta|X), X = {x_1,x_2,...,x_N}

根据贝叶斯定理求出后验概率,然后最大化后验概率(MAP)

p(θ|X)=p(X|θ)p(θ)p(X)p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}

导数为零,进行求解。(或者其他有效的最优化技术)。

∂p(θ|X)∂θ=0或者∂p(X|θ)p(θ)∂θ=0\frac{\partial p(\theta|X)}{\partial \theta}=0
或者
\frac{\partial p(X|\theta)p(\theta)}{\partial \theta}=0

[b]讨论[/b]

主要差别在于先验(当先验相同时,或者差别不大时,其差别很小)

贝叶斯推理

算法

已知NN个样本集合XX和先验概率P(θ)P(\theta),计算条件概率密度函数p(x|X)p(x|X)

p(x|X)=∫p(x|θ)p(θ|X)dθp(x|X) = \int p(x|\theta)p(\theta|X)d\theta

其中

p(θ|X)=p(X|θ)p(θ)p(X)=p(X|θ)p(θ)∫p(X|θ)p(θ)dθp(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}

p(X|θ)=∏k=1Np(xk|θ)p(X|\theta) = \prod_{k=1}^N p(x_k|\theta)

最大熵

熵是系统不确定性的度量


定义:

H=−∫xp(x)lnp(x)dxH = - \int_x p(x)ln p(x) dx

在具体应用是,只需要看看概率密度函数需要满足那些条件即可。

若均值和方差作为其它约束,对于,概率密度函数的最大熵估计为高斯分布

混合模型

线性组合表示p(x)p(x)

p(x)=∑j=1Jp(x|j)Pjp(x) = \sum_{j=1}^J p(x|j)P_j

其中需要满足一些概率性质(和为1)

∑j=1JPj=1,∫xp(x|j)dx=1\sum_{j=1}^J P_j = 1 , \int_x p(x|j) dx = 1

选取合适,可以近似任何连续的密度函数

[b]准备工作[/b]

选取相关密度组成函数 p(x|j)p(x|j),也就是p(x|j;θ)p(x|j;\theta)

根据观察样本,求解相关参数θ,Pj\theta,P_j

[b]方法[/b]

最大化似然函数

∏kp(xk;θ,P1,P2,...,PJ)\prod_k p(x_k;\theta,P_1,P_2,...,P_J)

难以求解最大值,本质上缺少标签信息,无监督的问题。EM算法可以求解此类问题。

[b]EM算法[/b]

有监督学习问题中,概率密度函数为py(y;θ)p_y(y;\theta)

那么在无监督中,

px(x;θ)=∫Y(x)py(y;θ)dyp_x(x;\theta) = \int_{Y(x)} p_y(y;\theta) dy

最大似然估计

∑k∂lnpy(yk;θ)∂θ=0\sum_k \frac {\partial lnp_y(y_k;\theta) }{\partial \theta} = 0

EM 在观察样本和θ\theta当前估计的条件下最大化似然函数的期望

算法流程

1)计算期望

Q(θ;theta(t))=E[∑kln(py(yk;θ|X;;θ(t)))]Q(\theta;theta(t)) = E[\sum_k ln(p_y(y_k;\theta|X;;\theta(t)))]

2)最大化

∂Q(θ;θ(t))∂θ=0\frac{\partial Q(\theta;\theta(t))}{\partial \theta}=0

似然函数一直在不断增大,直至收敛


[b]讨论[/b]

假设有标签

p(xk,jk;θ)=p(xk|jk;θ)Pjkp(x_k,j_k;\theta) = p(x_k|j_k;\theta)P_{jk}

似然

L(θ)=∑k=1Nln(p(xk|jk;θ)Pjk)L(\theta) = \sum_{k=1}^N ln(p(x_k|j_k;\theta)P_{jk})

上课笔记
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: