您的位置:首页 > 其它

机器学习—朴素贝叶斯进行文本分类

2015-03-10 20:49 246 查看
一、贝叶斯决策理论
给定一个点(x,y)要决定属于哪一个类别(类别1,类别2)
我们一般的处理方法是:
如果:P1(x,y)>P2(x,y)
类别为1
如果:P2(x,y)>P1(x,y)
类别为2

这就是贝叶斯决策理论的核心思想——选择具有最高概率的决策。

二、条件概率
条件概率P(a|b)表示在事件b已经发生的情况下事件a出现的概率,给出一种计算条件概率的方法,贝叶斯准则
贝叶斯准则:



有了条件概率的概念,我们就可以进一步完善贝叶斯决策理论。当我们判断一个点属于哪一类别时,实质上我们已经对其进行了一次观测,观测值就是点坐标(x,y)。因此我们求的P1与P2实际上是条件概率:P(c1|x,y),P(c2|x,y)。即,在知道点的坐标为(x,y)的条件下该点属于类别1,类别2的概率。
如果:P(c1|x,y)>P(c2|x,y) 类别为1
如果:P(c2|x,y)>P(c1|x,y) 类别为2


下面我们举一个实际的例子来进一步阐述贝叶斯决策的过程,并使用C++进行算法实现。
任务:使用贝叶斯决策进行文档分类(甄别留言中是否包含侮辱性词语)
类别 C0:
含侮辱性词语文档
类别 C1:正常文档

那么我们的主要工作就是来计算 P(c0|w)以及P(c1|w)
其中w={"I","cute",……"stupid"}为由我们的留言内容组成的词向量。
根据贝叶斯准则我们将问题转化为计算:



假设我们文档中各个单词的出现与否相互独立,则:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: