您的位置：首页 > 其它

朴素贝叶斯分类器在文本分类器中的应用

2012-12-06 17:00 260 查看

贝叶斯分类器的实质是通过先验概率来计算后验概率。从字面上看有点难以理解，举个例子：

分类1：癌症病人(占总病人的比例为0.008)，化验阳性百分比0.98（即癌症病人中化验阳性的百分数为0.98）

分类2：非癌症病人（占总病人的比例为0.992），化验阳性百分比0.03（即非癌症病人中化验阳性的百分数为0.03）

现在有一病人化验呈阳性，判断下他属于哪一类，也即他是癌症病人还是非癌症病人

整个问题可简化为如下模型：

已知如下先验概率：

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98

P(阳性|无cancer)=0.03

计算后验概率

P(阳性|cancer)p(cancer)和P(阳性|无cancer)*p(无cancer)

如果P(阳性|cancer)p(cancer)>P(阳性|无cancer)*p(无cancer),则该人属于分类1，即属于癌症病人

如果P(阳性|cancer)p(cancer)<P(阳性|无cancer)*p(无cancer),则该人属于分类2，即不属于癌症病人

上面这个例子和文本分类器其实是非常相似的

已知：

分类C1(新闻）：含有关键词x1，x2,x3................

分类C2(娱乐）：含有关键词x1，x2,x3................

分类C3(体育）：含有关键词x1，x2,x3................

求解：

一个文本含有关键词x1、x3、x5.........,判断该文本属于那一类

朴素贝叶斯分类假定关键词概率向量独立同分布

P(x1,x3,x5|c1)=p(x1|c1)*p(x3|c1)*p(x5|c1)

P(x1,x3,x5|c2)=p(x1|c2)*p(x3|c2)*p(x5|c2)

P(x1,x3,x5|c3)=p(x1|c3)*p(x3|c3)*p(x5|c3)

这三个值那个大便属于那一类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航