您的位置：首页 > 其它

R语言之文本挖掘

2015-08-22 21:25 239 查看

文本挖掘涉及到知识有：贝叶斯，朴素贝叶斯、分词算法。

贝叶斯公式：

P(H|X) = P(X|H)P(H)/P(X)

解释：X代表词，H代表是否是垃圾邮件，P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率，P(H)代表垃圾邮件的概率，P(X)代表X在整个训练集出现的概率，在X是单个词的情况下，还是比较容易算出，但是当分出的词是几个组合起来的，P(X|H)就不好求了，因为词组合的数太多。所以此时引进了朴素贝叶斯来求，此时准确率没有贝叶斯高，朴素贝叶斯，假定各个词都是独立的（实际上有些词不是独立的，所以才导致准确率下降），P(X|H)=P(X1|H)P(X2|H).......P(Xn|H)
（X有n个独立的词组成），P(X)=P(X1)P(X2).......P(Xn)，当H是多类的情况下，要判断属于哪个类，此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航