您的位置:首页 > 其它

【机器学习】朴素贝叶斯-条件概率

2018-01-15 17:35 183 查看
  
  朴素贝叶斯是基于概率论的分类方法,主要步骤是:

      1.利用Python的文本处理能力,将文档切分成词向量
      2.从词向量计算概率,得到分类器
      3.优化分类器
      4.通过分类器进行分类
 
  其中,计算概率是很关键的步骤,包括计算条件概率,下面总结一下关于条件概率的内容。
 
  我们来举个小球的例子:现在有7个球如下图所示放在2个桶里。

  


 (1)任取一球,取到的球出自B桶的概率是多少?  
3/7
 (2)从B桶中任取一球,取出灰球的概率是多少?
1/3
 (3)任取一球,取到的球出自B桶且为灰球的概率是多少?
1/7
  第三种情况是怎么求出的呢?是在第一种情况发生的条件下,再加上第二种情况发生的结果,就是第三种情况。所以,(3/7)*(1/3)=(1/7)在这里,(2)求得的就是条件概率,“从B桶中任取一球”说明了球必须是出自B桶的,用gray表示灰球,用B表示B桶,那么条件概率可以写成P(gray|B)。
 
同理,
 (4)任取一球,取到灰球的概率是多少?
3/7
 (5)已知取得灰球,该球出自B桶的概率是多少?
1/3
 (6)任取一球,取到灰球且该球出自B桶的概率是多少?
1/7
  第六种情况是怎么求出的呢?是在第四种情况发生的条件下,再加上第五种情况发生的结果,就是第六种情况。所以,(3/7)*(1/3)=(1/7)在这里,(5)求得的也是条件概率,“已知取得灰球”说明了球必须是灰色的,那么条件概率可以写成P(B|gray)。
 
  上述情况中,(3)与(6)其实是一种结果,所以P(1)*P(2)=P(4)*P(5),可以得到两个条件概率之间的关系公式,也就是贝叶斯公式:
       


  该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。
 
  现在我们应用条件概率,把条件扩展开来,事物具有的某些特征可以看做是“条件概率”中的条件,比如数据点的x、y坐标,那么条件概率所代表的的意义就是:给定某个由x、y表示的点,该点来自类别C1的概率是多少?该点来自类别C2的概率又是多少?贝叶斯分类准则就是:
  如果P(C1|x,y)>
P(C2|x,y),那么属于类别C1。
  如果P(C1|x,y)<
P(C2|x,y),那么属于类别C2。
 
  接下来可以研究分类了。
  下一篇文章【机器学习】朴素贝叶斯-对文档进行分类
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: