机器学习—朴素贝叶斯进行文本分类
2015-03-10 20:49
246 查看
一、贝叶斯决策理论
给定一个点(x,y)要决定属于哪一个类别(类别1,类别2)
我们一般的处理方法是:
如果:P1(x,y)>P2(x,y)
类别为1
如果:P2(x,y)>P1(x,y)
类别为2
这就是贝叶斯决策理论的核心思想——选择具有最高概率的决策。
二、条件概率
条件概率P(a|b)表示在事件b已经发生的情况下事件a出现的概率,给出一种计算条件概率的方法,贝叶斯准则
贝叶斯准则:
下面我们举一个实际的例子来进一步阐述贝叶斯决策的过程,并使用C++进行算法实现。
任务:使用贝叶斯决策进行文档分类(甄别留言中是否包含侮辱性词语)
类别 C0:
含侮辱性词语文档
类别 C1:正常文档
那么我们的主要工作就是来计算 P(c0|w)以及P(c1|w)
其中w={"I","cute",……"stupid"}为由我们的留言内容组成的词向量。
根据贝叶斯准则我们将问题转化为计算:
假设我们文档中各个单词的出现与否相互独立,则:
给定一个点(x,y)要决定属于哪一个类别(类别1,类别2)
我们一般的处理方法是:
如果:P1(x,y)>P2(x,y)
类别为1
如果:P2(x,y)>P1(x,y)
类别为2
这就是贝叶斯决策理论的核心思想——选择具有最高概率的决策。
二、条件概率
条件概率P(a|b)表示在事件b已经发生的情况下事件a出现的概率,给出一种计算条件概率的方法,贝叶斯准则
贝叶斯准则:
有了条件概率的概念,我们就可以进一步完善贝叶斯决策理论。当我们判断一个点属于哪一类别时,实质上我们已经对其进行了一次观测,观测值就是点坐标(x,y)。因此我们求的P1与P2实际上是条件概率:P(c1|x,y),P(c2|x,y)。即,在知道点的坐标为(x,y)的条件下该点属于类别1,类别2的概率。 如果:P(c1|x,y)>P(c2|x,y) 类别为1 如果:P(c2|x,y)>P(c1|x,y) 类别为2
下面我们举一个实际的例子来进一步阐述贝叶斯决策的过程,并使用C++进行算法实现。
任务:使用贝叶斯决策进行文档分类(甄别留言中是否包含侮辱性词语)
类别 C0:
含侮辱性词语文档
类别 C1:正常文档
那么我们的主要工作就是来计算 P(c0|w)以及P(c1|w)
其中w={"I","cute",……"stupid"}为由我们的留言内容组成的词向量。
根据贝叶斯准则我们将问题转化为计算:
假设我们文档中各个单词的出现与否相互独立,则:
相关文章推荐
- 机器学习-python编写朴素贝叶斯用于文本分类
- NLP系列(2)_用朴素贝叶斯进行文本分类(上)
- 朴素贝叶斯进行文本分类——python
- 机器学习实战之朴素贝叶斯进行文档分类(Python 代码版)
- 【机器学习实验】使用朴素贝叶斯进行文本的分类
- 【机器学习实验】使用朴素贝叶斯进行文本的分类
- 机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用
- 【机器学习】文本分类——朴素贝叶斯Bayes
- 使用朴素贝叶斯进行中文文本分类
- 朴素贝叶斯方法进行文本分类
- 【机器学习笔记之八】使用朴素贝叶斯进行文本的分类
- 用朴素贝叶斯进行文本分类(上)
- 机器学习笔记二十六 余弦相似度进行文本分类
- NLP系列(3)_用朴素贝叶斯进行文本分类(下)
- NLP系列(3)_用朴素贝叶斯进行文本分类(下)
- Python 文本分类:使用scikit-learn 机器学习包进行文本分类
- 【机器学习】朴素贝叶斯-对文档进行分类
- 【机器学习实验】使用朴素贝叶斯进行文本的分类
- NLP系列(2)_用朴素贝叶斯进行文本分类(上)
- 机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用