朴素贝叶斯分类器在文本分类器中的应用
2012-12-06 17:00
260 查看
贝叶斯分类器的实质是通过先验概率来计算后验概率。从字面上看有点难以理解,举个例子:
分类1:癌症病人(占总病人的比例为0.008),化验阳性百分比0.98(即癌症病人中化验阳性的百分数为0.98)
分类2:非癌症病人(占总病人的比例为0.992),化验阳性百分比0.03(即非癌症病人中化验阳性的百分数为0.03)
现在有一病人化验呈阳性,判断下他属于哪一类,也即他是癌症病人还是非癌症病人
整个问题可简化为如下模型:
已知如下先验概率:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98
P(阳性|无cancer)=0.03
计算后验概率
P(阳性|cancer)p(cancer)和P(阳性|无cancer)*p(无cancer)
如果P(阳性|cancer)p(cancer)>P(阳性|无cancer)*p(无cancer),则该人属于分类1,即属于癌症病人
如果P(阳性|cancer)p(cancer)<P(阳性|无cancer)*p(无cancer),则该人属于分类2,即不属于癌症病人
上面这个例子和文本分类器其实是非常相似的
已知:
分类C1(新闻):含有关键词x1,x2,x3................
分类C2(娱乐):含有关键词x1,x2,x3................
分类C3(体育):含有关键词x1,x2,x3................
求解:
一个文本含有关键词x1、x3、x5.........,判断该文本属于那一类
朴素贝叶斯分类假定关键词概率向量独立同分布
P(x1,x3,x5|c1)=p(x1|c1)*p(x3|c1)*p(x5|c1)
P(x1,x3,x5|c2)=p(x1|c2)*p(x3|c2)*p(x5|c2)
P(x1,x3,x5|c3)=p(x1|c3)*p(x3|c3)*p(x5|c3)
这三个值那个大便属于那一类
分类1:癌症病人(占总病人的比例为0.008),化验阳性百分比0.98(即癌症病人中化验阳性的百分数为0.98)
分类2:非癌症病人(占总病人的比例为0.992),化验阳性百分比0.03(即非癌症病人中化验阳性的百分数为0.03)
现在有一病人化验呈阳性,判断下他属于哪一类,也即他是癌症病人还是非癌症病人
整个问题可简化为如下模型:
已知如下先验概率:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98
P(阳性|无cancer)=0.03
计算后验概率
P(阳性|cancer)p(cancer)和P(阳性|无cancer)*p(无cancer)
如果P(阳性|cancer)p(cancer)>P(阳性|无cancer)*p(无cancer),则该人属于分类1,即属于癌症病人
如果P(阳性|cancer)p(cancer)<P(阳性|无cancer)*p(无cancer),则该人属于分类2,即不属于癌症病人
上面这个例子和文本分类器其实是非常相似的
已知:
分类C1(新闻):含有关键词x1,x2,x3................
分类C2(娱乐):含有关键词x1,x2,x3................
分类C3(体育):含有关键词x1,x2,x3................
求解:
一个文本含有关键词x1、x3、x5.........,判断该文本属于那一类
朴素贝叶斯分类假定关键词概率向量独立同分布
P(x1,x3,x5|c1)=p(x1|c1)*p(x3|c1)*p(x5|c1)
P(x1,x3,x5|c2)=p(x1|c2)*p(x3|c2)*p(x5|c2)
P(x1,x3,x5|c3)=p(x1|c3)*p(x3|c3)*p(x5|c3)
这三个值那个大便属于那一类