您的位置：首页 > 其它

斯坦福大学公开课：机器学习课程（Andrew Ng）——3、监督学习：Gaussian Discriminant Analysis (GDA)

2015-01-02 19:23 295 查看

[b]0）[b][b][b]高斯判别分析模型[/b][/b]适用于输入特征x是连续型随机变量的情况，主要目的是确定后验概率p(x|y)。

[/b][/b]

[b]1）判别模型和生成模型（Discriminative/Generative Model）

[/b]

[b]2）高斯判别分析（Gaussian Discriminant Analysis(GDA)）[/b]

[b] 2.1）多元正态分布

[/b]

[b] 2.2）高斯判别模型分析[/b]

[b] 2.3）利用高斯判别模型进行分类[/b]

[b] 2.4）高斯判别分析（GDA）与logistic回归的关系[/b]

[b][b]0）[b][b][b]高斯判别分析模型[/b][/b]适用于输入特征x是连续型随机变量的情况，主要目的是确定后验概率p(x|y)。[/b][/b]

[/b]

1）判别模型和生成模型（Discriminative/Generative Model）

Discriminative Algorithms：mapping directly from X to the labels {0, 1}。

Generative Algorithms： try to model p(x|y=0)， p(x|y=1)，p(x) = p(x|y=1)*p(y=1)+p(x|y=0)*p(y=0)，p(y=1)，p(y=0)

然后利用贝叶斯公式将统一性：

由于我们关注的是y的离散值结果中哪个概率大，而并不是关心具体的概率，因此上式改写为：

其中

称为先验概率，人为指定或根据每个y=0/1在样本中所占的比例近似；

称为后验概率，是我们想要真正计算的。

2）高斯判别分析（Gaussian Discriminant Analysis(GDA)）
高斯判别分析：assume that p(x|y) is distributed according to a multivariate normal distribution(多元正态分布)。

2.1）多元正态分布

多变量正态分布描述的是n维随机变量的分布情况，这里的

变成了向量，

也变成了矩阵

。写作

。假设有n个随机变量X1,X2,…,Xn。

的第i个分量是E(Xi)，而

。

概率密度函数如下：

其中|

是

的行列式，

是协方差矩阵，而且是对称半正定的。

当

是二维的时候可以如下图表示：

其中

决定中心位置，

决定投影椭圆的朝向和大小。

如下图：

对应的

都不同。

2.2）高斯判别模型分析

如果输入特征x是连续型随机变量，那么可以使用高斯判别分析模型来确定p(x|y)。

模型如下：

输出结果服从伯努利分布，在给定模型下特征符合多元高斯分布。通俗地讲，在山羊模型下，它的胡须长度，角大小，毛长度等连续型变量符合高斯分布，他们组成的特征向量符合多元高斯分布。

这样，可以给出概率密度函数：

最大似然估计如下：

注意这里的参数有两个

，表示在不同的结果模型下，特征均值不同，但我们假设协方差相同。反映在图上就是不同模型中心位置不同，但形状相同。这样就可以用直线来进行分隔判别。

求导后，得到参数估计公式：

是训练样本中结果y=1占有的比例。

是y=0的样本中特征均值。

是y=1的样本中特征均值。

是样本特征方差均值。

如前面所述，在图上表示为：

直线两边的y值不同，但协方差矩阵相同，因此形状相同。

不同，因此位置不同。

2.3）利用高斯判别模型进行分类
a）根据训练样例，利用2.2）中描述的方法计算出了高斯判别模型中的4个参数。

b）对于一个新的待分类数据x，根据下面的式子计算p(x|y=0)*p(y=0)和p(x|y=1)*p(y=1)哪个大，对应的y就是x要归为的类。

2.4）高斯判别分析（GDA）与logistic回归的关系

将GDA用条件概率方式来表述的话，如下：

y是x的函数，其中

都是参数。

进一步推导出

这里的

是

的函数。这个形式就是logistic回归的形式。

也就是说，如果p(x|y)符合多元高斯分布，那么p(y|x)符合logistic回归模型。反之，不成立。为什么反过来不成立呢？因为GDA有着更强的假设条件和约束。

如果认定训练数据满足多元高斯分布，那么GDA在训练集上是最好的模型。然而，我们往往事先不知道训练数据满足什么样的分布，更不应该做很强的假设，此时采用logistic回归的方法就比较合适。例如，如果训练数据满足泊松分布（而不是多元高斯分布），即

，此时p(y|x)仍然是logistic回归的，但不是多元高斯分布，采用GDA效果也会比较差。这也是logistic回归用的更多的原因。

参考：http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971903.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

斯坦福大学公开课 ：机器学习课程（Andrew Ng）——3、监督学习：Gaussian Discriminant Analysis (GDA)

斯坦福大学公开课：机器学习课程（Andrew Ng）——3、监督学习：Gaussian Discriminant Analysis (GDA)