您的位置：首页 > 其它

统计关系学习的一些要点总结

2010-03-26 23:29 225 查看

摘自《人工智能一种现代方法》第20章要点

1、 两个关键词：

data – 描述研究领域的所有或部分随机变量的实例，也可称为evidence。
hypotheses – 假设、猜测、前提，描述某领域如何运作的概率规律。
2、 一个有趣的例子：

案例描述：

奇妙的糖果: 有两种口味的糖果按5种比例方式混合包装在大的袋子中，这五类包装的袋子从外观上无法辨别

h1: 100% cherry

h2: 75% cherry + 25% lime

h3: 50% cherry + 50% lime

h4: 25% cherry + 75% lime

h5: 100% lime

问题引出：

设随机变量H表示袋子类型(h1 – h5)，Di是代表口味的随机变量(cherry or lime)，在观察了D1, D2, …, DN后，要求预测DN+1所代表的口味。

3、 贝叶斯学习

通过观测结果计算每个假设或前提的概率：P(hi|d) = αP(d|hi)P(hi)
那么，预测未知数量X的分布为

我们称P(hi)为先验概率(prior)，P(d|hi)为似然性(likelihood)，也就是

posterior = (likelihood × prior) / evidence。

对于贝叶斯学习来说，不需要挑选最佳的假设或前提，因为最终那实际为真的前提会主导贝叶斯的预测，这是贝叶斯学习的特性。
常见近似算法：

1) MAP（maximum a posterior），也就是选择一个hi使得P(hi|d)最大。贝叶斯和MAP都使用优先权重来惩罚复杂度以避免过分拟合；和MDL（minimum description length）一样，MAP选择能最压缩地表示数据的hi。

2) ML（maximum-likelihood），如果P(hi)均匀分布，那么MAP可以简化为ML，ML选择一个使得P(d|hi)最大的hi。它在对所有假设hi都没有偏好以及有大量观察数据时是一个有效的方法。

简单总结一下

P(X|d) = P(X|hi)P(d|hi)P(hi) 贝叶斯学习

= P(X|hMAP)P(d|hMAP)P(hMAP) MAP

= P(X|hML)P(d|hML) ML

4、 完整数据下的学习

完整数据下参数学习的任务是在固定结构和完整数据下发现一个概率模型的数值参数。
Maximum-likelihood参数学习（离散模型）

1) Write down an expression for the likelihood of the data as a function of the parameter(s).

2) Write down the derivative of the log likelihood with respect to each parameter.

3) Find the parameter values such that the derivatives are zero.

4) 主要问题是如果观测数据太少，没有观测到的事件会被赋予0概率。用一些技巧可以规避，比如计数从1开始而不是0。

朴素贝叶斯模型是机器学习中最常用的贝叶斯网络模型，其中被预测的变量是根节点，其它“属性”变量是叶子，在给定根的条件下，叶子之间相互独立。

1) 可确定的预测是：P(C|x1,x2,…,xn) = αP(C) Πi P(xi|C)

2) 能扩展规模很大的问题：如果有n布尔属性，那么只需要2n+1 参数, 而且不需要搜索就能找到hML

3) 受噪声数据影响很小。

Maximum-likelihood参数学习（连续模型）与离散模型方法类似。
贝叶斯网络参数学习和结构学习

1) ML方法在小数据量时有缺陷，而贝叶斯能克服这一点；

2) P(Ө) = U[0,1](Ө)上的连续分布，结果为贝塔分布：beta[a, b]( Ө) = αӨ a-1(1-Ө)b-1;

3) 布尔随机变量的贝塔分布族有个重要特性就是先验概率和后验概率是共轭的，P(Ө|D=true) = beta[a+1, b](Ө)，P(Ө|D=false) = beta[a, b+1](Ө)；

4) 贝叶斯参数学习可以从beta[1,1]开始；

5) 对于多个相互独立随机变量，每个可以分开独立的学习；

6) 贝叶斯网络结构学习的研究还处于幼儿期。

5、 隐藏变量下的学习

利用隐藏变量可以大大减少需要学习的参数数量，一种通用的学习算法叫做均值最大法（expectation–maximization，EM）。举了三个例子：

非监督聚类学习

1) 问题：P(x) = Ski=1P(C=i)P(x|C=i)，我们即不知道哪个部分C产生x，也不知道每个部分C的似然参数。

2) E-step: 任意选一初始参数，计算 pij = P(C=i|xj) = αP(xj|C=i)P(C=i)， P(C=i) = pi = Sj pij

3) M-step: 计算新的 mi = Sj pijxj/pi, Si pijxjxjT/pi, wi = pi

4) 每次迭代EM都会提升数据的对数似然性，最终得到局部的最大值。

贝叶斯网络隐藏变量学习（略）
隐马尔科夫模型（略）
EM算法的概括

1) 选择初始参数；

2) 计算隐藏变量的均值或者叫做期望值；

3) 将这些均值当作观测值再来计算参数。

4) 那么这个算法就简单概括为：Ө (i+1) = argmax Ө ΣzP(Z=z|x,Ө (i))L(x,Z=z|Ө)，其中x是观测数据，z是隐藏变量，Ө为概率模型的参数。

6、 基于实例的学习（也叫非参数学习）

参数学习与非参数学习对比

1) 参数学习的注意力集中在有限制的概率模型参数与无限制的观测数据的匹配上；

2) 参数学习往往简单而有效，但有时会过分简化；

3) 非参数学习的假设复杂度可随着数据的复杂度增加而增加；

4) 基于实例的学习从训练数据中构建假设或前提，所以是一种非参数学习方法。