您的位置：首页 > 其它

概率密度分布

2015-12-31 15:45 197 查看

参数密度估计

大多数实际应用过程中，缺乏概率分布的具体解析式，因此需要通过所观察到的样本进行进行估计，通常分为：

参数估计

非参数估计

参数估计

已知：概率分布的解析表达式

求解：确定表达式中的参数

主要方法

最大似然估计（频率学派）

最大后验概率估计（多个先验，贝叶斯学派）

贝叶斯推理

最大熵模型

混合模型（EM算法）

最大似然估计

算法

1）把参数当做未知实数（不是变量） ------频率学派
2）需要解析式，很多时候是困难的。解析式是正态分布时，等同于最小二乘法。

随机样本x1,x2,...,xNx_1,x_2,...,x_N来自概率分布p(x;θ)p(x;\theta)

假设样本对立，则联合概率:

p(X;θ)=p(x1,x2,...,xN;θ)=∏k=1Np(xk;θ)p(X;\theta) = p(x_1,x_2,...,x_N;\theta)=\prod_{k=1}^Np(x_k;\theta)

最大似然方法(max likelihood)估计使似然函数取最大值（一般来说先取对数，方便计算）

θ¯ML=argmaxθ∏k=1Kp(xk;θ) \bar{\theta}_{ML} = argmax_\theta \prod_{k=1}^Kp(x_k;\theta)

导数为零，进行求解。（或者其他有效的最优化技术,如梯度下降算法等）。

∂∏Kk=1p(xk;θ)∂θ=0 \frac{\partial\prod_{k=1}^Kp(x_k;\theta)}{\partial\theta}=0

多数的方程会不可导，可以查阅相关资料进行最优化

[b]具体细节[/b]

一般去对数似然函数，大多数也是这么做的，求解方便（如高斯公式取对数）

L(θ)=ln∏k=1Np(xk;θ)L(\theta) = ln \prod_{k=1}^Np(x_k;\theta)

∂L(θ)∂θ=∑k=1N∂lnp(xk;θ)∂θ=∑k=1N1p(xk;θ)∂p(xk;θ)∂θ=0 \frac{\partial L(\theta)}{\partial \theta}
= \sum_{k=1}^N \frac{\partial lnp(x_k;\theta)}{\partial \theta}
=\sum_{k=1}^N \frac{1}{p(x_k;\theta)} \frac{\partial p(x_k;\theta)}{\partial \theta}=0

我们可以看出，原来需要对整个连乘公式求偏导，现在需要为每个概率公式求偏导，然后累加。许多公式本身求偏导是有很多良好性质（logister等），计算很简便。

[b]性质[/b]

渐进无偏估计（无偏性，根据定义证明即可）

渐进一致的

渐进高效的，最小方差值

参数估计的质量

我们假设有一个理想的模型（我们的目标，也是模式识别的基础），但是目前手里只有一些抽样出来的样本。我们可以认为，学习出来的模型是基于少量样本的，但是我们追求的是适用于所有样本的模型。

当前模型估计的越复杂，那么在该数据集上（目前训练集上）准确性越好，那么模型的鲁棒性（在所有样本上）就会有所下降
当前模型估计的越简单，那么在该数据集上准确性就有所下降，但是模型的鲁棒性会相对上升。

我们不知道目前数据集的可靠性，做的太好（过分推理，过拟合），在测试集上就不一定表现的很好。做的太差（欠拟合，从训练样本中，学习了很少），在测试集上表现平平。这边说的做的太好，做的太差，当然是相对于训练集的。

因此，到底要做怎么样的平衡，通常就是借助验证集来评判。

偏差：真实值与估计值的距离（训练集上的表现）

方差：对于不同数据集，参数估计值的变化

对于高斯分布而言，我们很容易证明：

均值估计是无偏的

方差估计是有偏的（样本很大的时候，偏差消失。因为，当样本很大，先验作用开始不明显，也就是频率学认为先验来自于样本。或者可以从贝叶斯公式也能看出。）

最大后验概率估计

算法

最大后验概率认为θ\theta是随机变量。而不是一个未知参数。（两派之争）

后验概率:

p(θ|X),X=x1,x2,...,xNp(\theta|X), X = {x_1,x_2,...,x_N}

根据贝叶斯定理求出后验概率，然后最大化后验概率（MAP）

p(θ|X)=p(X|θ)p(θ)p(X)p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}

导数为零，进行求解。（或者其他有效的最优化技术）。

∂p(θ|X)∂θ=0或者∂p(X|θ)p(θ)∂θ=0\frac{\partial p(\theta|X)}{\partial \theta}=0
或者
\frac{\partial p(X|\theta)p(\theta)}{\partial \theta}=0

[b]讨论[/b]

主要差别在于先验（当先验相同时，或者差别不大时，其差别很小）

贝叶斯推理

算法

已知NN个样本集合XX和先验概率P(θ)P(\theta),计算条件概率密度函数p(x|X)p(x|X)

p(x|X)=∫p(x|θ)p(θ|X)dθp(x|X) = \int p(x|\theta)p(\theta|X)d\theta

其中

p(θ|X)=p(X|θ)p(θ)p(X)=p(X|θ)p(θ)∫p(X|θ)p(θ)dθp(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}

p(X|θ)=∏k=1Np(xk|θ)p(X|\theta) = \prod_{k=1}^N p(x_k|\theta)

最大熵

熵是系统不确定性的度量

定义：

H=−∫xp(x)lnp(x)dxH = - \int_x p(x)ln p(x) dx

在具体应用是，只需要看看概率密度函数需要满足那些条件即可。

若均值和方差作为其它约束，对于，概率密度函数的最大熵估计为高斯分布

混合模型

线性组合表示p(x)p(x)

p(x)=∑j=1Jp(x|j)Pjp(x) = \sum_{j=1}^J p(x|j)P_j

其中需要满足一些概率性质（和为1）

∑j=1JPj=1,∫xp(x|j)dx=1\sum_{j=1}^J P_j = 1 , \int_x p(x|j) dx = 1

选取合适，可以近似任何连续的密度函数

[b]准备工作[/b]

选取相关密度组成函数 p(x|j)p(x|j),也就是p(x|j;θ)p(x|j;\theta)

根据观察样本，求解相关参数θ,Pj\theta,P_j

[b]方法[/b]

最大化似然函数

∏kp(xk;θ,P1,P2,...,PJ)\prod_k p(x_k;\theta,P_1,P_2,...,P_J)

难以求解最大值，本质上缺少标签信息，无监督的问题。EM算法可以求解此类问题。

[b]EM算法[/b]

有监督学习问题中，概率密度函数为py(y;θ)p_y(y;\theta)

那么在无监督中，

px(x;θ)=∫Y(x)py(y;θ)dyp_x(x;\theta) = \int_{Y(x)} p_y(y;\theta) dy

最大似然估计

∑k∂lnpy(yk;θ)∂θ=0\sum_k \frac {\partial lnp_y(y_k;\theta) }{\partial \theta} = 0

EM 在观察样本和θ\theta当前估计的条件下最大化似然函数的期望

算法流程

1）计算期望

Q(θ;theta(t))=E[∑kln(py(yk;θ|X;;θ(t)))]Q(\theta;theta(t)) = E[\sum_k ln(p_y(y_k;\theta|X;;\theta(t)))]

2)最大化

∂Q(θ;θ(t))∂θ=0\frac{\partial Q(\theta;\theta(t))}{\partial \theta}=0

似然函数一直在不断增大，直至收敛

[b]讨论[/b]

假设有标签

p(xk，jk;θ)=p(xk|jk;θ)Pjkp(x_k，j_k;\theta) = p(x_k|j_k;\theta)P_{jk}

似然

L(θ)=∑k=1Nln(p(xk|jk;θ)Pjk)L(\theta) = \sum_{k=1}^N ln(p(x_k|j_k;\theta)P_{jk})

上课笔记

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航