您的位置:首页 > 其它

朴素贝叶斯分类器在文本分类器中的应用

2012-12-06 17:00 260 查看
贝叶斯分类器的实质是通过先验概率来计算后验概率。从字面上看有点难以理解,举个例子:

分类1:癌症病人(占总病人的比例为0.008),化验阳性百分比0.98(即癌症病人中化验阳性的百分数为0.98)

分类2:非癌症病人(占总病人的比例为0.992),化验阳性百分比0.03(即非癌症病人中化验阳性的百分数为0.03)

现在有一病人化验呈阳性,判断下他属于哪一类,也即他是癌症病人还是非癌症病人

整个问题可简化为如下模型:

已知如下先验概率:

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98

P(阳性|无cancer)=0.03

计算后验概率

P(阳性|cancer)p(cancer)和P(阳性|无cancer)*p(无cancer)

如果P(阳性|cancer)p(cancer)>P(阳性|无cancer)*p(无cancer),则该人属于分类1,即属于癌症病人

如果P(阳性|cancer)p(cancer)<P(阳性|无cancer)*p(无cancer),则该人属于分类2,即不属于癌症病人

上面这个例子和文本分类器其实是非常相似的

已知:

分类C1(新闻):含有关键词x1,x2,x3................

分类C2(娱乐):含有关键词x1,x2,x3................

分类C3(体育):含有关键词x1,x2,x3................

求解:

一个文本含有关键词x1、x3、x5.........,判断该文本属于那一类

朴素贝叶斯分类假定关键词概率向量独立同分布

P(x1,x3,x5|c1)=p(x1|c1)*p(x3|c1)*p(x5|c1)

P(x1,x3,x5|c2)=p(x1|c2)*p(x3|c2)*p(x5|c2)

P(x1,x3,x5|c3)=p(x1|c3)*p(x3|c3)*p(x5|c3)

这三个值那个大便属于那一类
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: