您的位置:首页 > 其它

分类-3-生成学习-1-问题引入

2016-04-05 20:52 239 查看
在之前的学习方法中,我们的目的是求p(y|x,θ)p(y|x,\theta),即求y在x的条件下的概率。例如在逻辑回归中我们的模型是hθ(x)=g(θTx)h_\theta(x)=g(\theta^Tx),其输出结果就是预测样本属于某个类别的概率。对于二分类来说,它们的目的就是为了找到一个分割线(超平面)将样本划分为2类。当测试一个输入样本时,只需要看这个样本在分割线(超平面)的哪一侧。

回想贝叶斯公式:

p(y|x)=p(x|y)p(y)p(x)p(y|x)=\frac{p(x|y)p(y)}{p(x)}

学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B)P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)P(A)P(B|A)=\frac{P(A|B)P(B)}{P(A)};即,已知P(A|B),P(A)P(A|B),P(A)和P(B)P(B)可以计算出P(B|A)P(B|A)。

P(A)P(A)是AA的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何BB方面的因素。

P(A|B)P(A|B)是已知BB发生后AA的条件概率,也由于得自BB的取值而被称作AA的后验概率。

P(B|A)P(B|A)是已知AA发生后BB的条件概率,也由于得自AA的取值而被称作BB的后验概率。

P(B)P(B)是BB的先验概率或边缘概率,也作标准化常量(normalized constant)。

假设BB是由相互独立的事件组成的概率空间{B1,B2,...Bn}\{B_1,B_2,...B_n\}。则P(A)P(A)可以用全概率公式展开:P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)P(A)=P (A|B_1)P(B_1)+P(A|B_2)P(B_2)+..P(A|B_n)P(B_n)。贝叶斯公式表示成:P(Bi|A)=P(A|Bi)P(Bi)P(A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)P(B_i|A)=\frac{P(A|B_i)P(B_i)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+..P(A|B_n)P(B_n)};因此贝叶斯公式就可变为下面形式:

P(Bi|A)=P(A|Bi)P(Bi)∑ni=1P(A|Bi)P(Bi)P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)}

这里A就相当于我们的输入x,显然分母的值是固定不变的。因此在实际使用中我们并不需要考虑P(x)。这里A就相当于我们的输入x,显然分母的值是固定不变的。因此在实际使用中我们并不需要考虑P(x)。

因此可得我们的预测结果:



注:argmaxyp(y|x)代表,输出使得p(y|x)最大的yargmax_yp(y|x)代表,输出使得p(y|x)最大的y。

这种方法我们称为生成模型,而之前的一些方法称为辨别模型这篇博客较为详细地介绍了两个模型
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: