您的位置：首页 > 其它

机器学习—朴素贝叶斯进行文本分类

2015-03-10 20:49 246 查看

一、贝叶斯决策理论
给定一个点（x,y）要决定属于哪一个类别（类别1，类别2）
我们一般的处理方法是：
如果：P1(x,y)>P2(x,y)
类别为1
如果：P2(x,y)>P1(x,y)
类别为2

这就是贝叶斯决策理论的核心思想——选择具有最高概率的决策。

二、条件概率
条件概率P(a|b)表示在事件b已经发生的情况下事件a出现的概率，给出一种计算条件概率的方法，贝叶斯准则
贝叶斯准则：

有了条件概率的概念，我们就可以进一步完善贝叶斯决策理论。当我们判断一个点属于哪一类别时，实质上我们已经对其进行了一次观测，观测值就是点坐标(x,y)。因此我们求的P1与P2实际上是条件概率：P(c1|x,y)，P(c2|x,y)。即，在知道点的坐标为（x,y）的条件下该点属于类别1，类别2的概率。
如果：P(c1|x,y)>P(c2|x,y) 类别为1
如果：P(c2|x,y)>P(c1|x,y) 类别为2

下面我们举一个实际的例子来进一步阐述贝叶斯决策的过程，并使用C++进行算法实现。
任务：使用贝叶斯决策进行文档分类（甄别留言中是否包含侮辱性词语）
类别 C0:
含侮辱性词语文档
类别 C1：正常文档

那么我们的主要工作就是来计算 P（c0|w）以及P（c1|w）
其中w={"I","cute",……"stupid"}为由我们的留言内容组成的词向量。
根据贝叶斯准则我们将问题转化为计算：

假设我们文档中各个单词的出现与否相互独立，则：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航