您的位置:首页 > 其它

R语言之文本挖掘

2015-08-22 21:25 239 查看
文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。

贝叶斯公式:

P(H|X) = P(X|H)P(H)/P(X)

解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几个组合起来的,P(X|H)就不好求了,因为词组合的数太多。所以此时引进了朴素贝叶斯来求,此时准确率没有贝叶斯高,朴素贝叶斯,假定各个词都是独立的(实际上有些词不是独立的,所以才导致准确率下降),P(X|H)=P(X1|H)P(X2|H).......P(Xn|H)
 (X有n个独立的词组成),P(X)=P(X1)P(X2).......P(Xn),当H是多类的情况下,要判断属于哪个类,此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: