您的位置:首页 > 其它

李宏毅机器学习-3

2019-05-26 02:47 323 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/titing3539/article/details/90553832

李宏毅机器学习-3

1、从基础概率推导贝叶斯公式、朴素贝叶斯公式

  • 条件概率
    事件A已发生的条件下事件B发生的概率(很容易理解)。比如,设事件A为“至少有一次为正面用“正”表示,事件B为“两次掷出同一面即(同正或者同反)”,现在求已知事件A发生的条件下事件B发生的概率。
    样本空间为S = {正正,正反,反正,反反},A={正正,正反,反正},B={正正,反反},可知此属于古典概型问题。已知事件A已发生,有了这一信息,知道B中的{反反}不可能发生,即试验所有可能结果所组成的集合就是A,A中有三个元素,其中{正正}属于B,于是,在事件A发生的条件下B发生的概率(记为)为 1/3。

    条件概率推倒过程直接给出:

  • 贝叶斯公式
    刚刚讲到条件概率,我们现在将P(A)左乘:

    有P(B/A)就有P(A/B) ,同理可得:

    上面2个公式整理一下可以得到传说中的贝叶斯公式:

    有的时候我们无法直接求解P(A/B),但我们可以通过贝叶斯公式转化为求解P(B/A)、P(A)、P(B)会容易很多。贝叶斯的最牛叉的地方是它可以反求某些条件概率。

  • 朴素贝叶斯
    朴素贝叶斯来源于分类,需要从分类角度解释他,然后再和贝叶斯公式比较。
    先直接讲朴素贝叶斯算法实现:

    分类的规则是计算每个样本属于某一分类的概率,然后把概率大的样本归为这一类
    在某一样本的前提下,判断他属于哪一类的概率的大小即

    也就是,A样本属于i类的概率大于属于其他所有类的概率,则将A类分类为 i 类。

OK,理清楚了是怎么分类的,接下来就是计算,计算的时候其实就是贝叶斯公式,重点计算P(X/Ci),就是某一分类下所有特征的概率,计算有复杂,马上引出朴素贝叶斯:


如果数据集属性特别多,那计算起来开销很大,但可通过类条件独立的朴素假定,有条件地相互独立。2种情况:1、X属性值为分类属性时,可以简单通过一个比重搞定(见上图);2、为连续属性时,假定属性服从高斯分布,也很容易解决。

总结下,假定样本数据的特征是独立的朴素假定或者说样本的各特征之间是没关联,没关系的,则:

假设条件独立后,计算复杂度降低了几个数量级,同时根据样本计算独立的概率还是很容易的,这也是朴素贝叶斯的由来。可以说贝叶斯朴素贝叶斯最大区别就在‘朴素’上即条件独立,引入朴素贝叶斯的目的是为了降低计算量

还有个问题,就是假设某个特征的概率为0,也就是上面的连乘出现0的情况怎么办?
假设样本数量很大,在初始化时,就让所有的特征加1,这样就避免了不存在特征的情况,在数据很大时,加1操作可以忽略不计,该方法称为拉普拉斯校准拉普拉斯估计法

2、先验概率、后验概率

  • 先验概率
    基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出,一般都是单独事件概率,如P(x),P(y)。
  • 后验概率
    一个随机事件或者一个不确定事件的后验概率是在考虑给出相关证据或数据后所得到的条件概率。后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布,或者说是基于先验概率求得的反向条件概率,与条件概率形式相同

3、LR与Linear regreeesion之间区别

1、输出的区别:linear regression的输出是连续的,在有限空间可取任意值; logistic regression的输出期望是离散的,只有有限个数值;
2、最小化误差的方法区别.:采用均方误差的linear regression对于大的误差施加二次倍数的惩罚(L2正则), 而logistic regression把较大的误差惩罚到一个渐进的常数(L1正则);
3、先验的区别:liner regression期望拟合训练数据,通过feature的线性加权来预测结果; logistic regression是在训练一个最大似然分类器。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: