【机器学习】朴素贝叶斯-条件概率
2018-01-15 17:35
183 查看
朴素贝叶斯是基于概率论的分类方法,主要步骤是:
1.利用Python的文本处理能力,将文档切分成词向量
2.从词向量计算概率,得到分类器
3.优化分类器
4.通过分类器进行分类
其中,计算概率是很关键的步骤,包括计算条件概率,下面总结一下关于条件概率的内容。
我们来举个小球的例子:现在有7个球如下图所示放在2个桶里。
(1)任取一球,取到的球出自B桶的概率是多少?
3/7
(2)从B桶中任取一球,取出灰球的概率是多少?
1/3
(3)任取一球,取到的球出自B桶且为灰球的概率是多少?
1/7
第三种情况是怎么求出的呢?是在第一种情况发生的条件下,再加上第二种情况发生的结果,就是第三种情况。所以,(3/7)*(1/3)=(1/7)在这里,(2)求得的就是条件概率,“从B桶中任取一球”说明了球必须是出自B桶的,用gray表示灰球,用B表示B桶,那么条件概率可以写成P(gray|B)。
同理,
(4)任取一球,取到灰球的概率是多少?
3/7
(5)已知取得灰球,该球出自B桶的概率是多少?
1/3
(6)任取一球,取到灰球且该球出自B桶的概率是多少?
1/7
第六种情况是怎么求出的呢?是在第四种情况发生的条件下,再加上第五种情况发生的结果,就是第六种情况。所以,(3/7)*(1/3)=(1/7)在这里,(5)求得的也是条件概率,“已知取得灰球”说明了球必须是灰色的,那么条件概率可以写成P(B|gray)。
上述情况中,(3)与(6)其实是一种结果,所以P(1)*P(2)=P(4)*P(5),可以得到两个条件概率之间的关系公式,也就是贝叶斯公式:
该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。
现在我们应用条件概率,把条件扩展开来,事物具有的某些特征可以看做是“条件概率”中的条件,比如数据点的x、y坐标,那么条件概率所代表的的意义就是:给定某个由x、y表示的点,该点来自类别C1的概率是多少?该点来自类别C2的概率又是多少?贝叶斯分类准则就是:
如果P(C1|x,y)>
P(C2|x,y),那么属于类别C1。
如果P(C1|x,y)<
P(C2|x,y),那么属于类别C2。
接下来可以研究分类了。
下一篇文章【机器学习】朴素贝叶斯-对文档进行分类
相关文章推荐
- scikit-learn机器学习(五)--条件概率,全概率和贝叶斯定理及python实现
- 【机器学习】主题模型(一):条件概率、矩阵分解
- 机器学习 —— 极大似然估计与条件概率
- 【机器学习】【读后感】(条件)概率模型们的本质:树状、时序到一般性的图
- 机器学习基础--概率论与数理统计 chapter1 section5 条件概率
- 机器学习—朴素贝叶斯进行文本分类
- 基于统计概率和机器学习的文本分类技术
- 概率条件下随机数的生成
- (斯坦福机器学习课程笔记)混合高斯模型,朴素贝叶斯,混合朴素贝叶斯模型,因子分析
- 枚举,预处理,条件概率(条件概率,uva 11181)
- 机器学习中的概率公式
- 机器学习第四篇(stanford大学公开课学习笔记) —生成型学习算法之高斯判别分析模型和朴素贝叶斯方法
- 概率统计与机器学习:机器学习常见名词解释(过拟合,偏差方差)
- 机器学习(3)之最小二乘法的概率解释与局部加权回归
- 机器学习概念:最大后验概率估计与最大似然估计 (Maximum posterior probability and maximum likelihood estimation)
- 朴素贝叶斯-斯坦福大学机器学习
- PRML Ch2: Probability Distributions 机器学习的概率基础
- 机器学习笔记(一)朴素贝叶斯的Python代码实现
- 机器学习:最大似然估计与最大后验概率估计
- 机器学习之朴素贝叶斯Naïve Bayes (一)