R语言之文本挖掘
2015-08-22 21:25
239 查看
文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。
贝叶斯公式:
P(H|X) = P(X|H)P(H)/P(X)
解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几个组合起来的,P(X|H)就不好求了,因为词组合的数太多。所以此时引进了朴素贝叶斯来求,此时准确率没有贝叶斯高,朴素贝叶斯,假定各个词都是独立的(实际上有些词不是独立的,所以才导致准确率下降),P(X|H)=P(X1|H)P(X2|H).......P(Xn|H)
(X有n个独立的词组成),P(X)=P(X1)P(X2).......P(Xn),当H是多类的情况下,要判断属于哪个类,此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类
贝叶斯公式:
P(H|X) = P(X|H)P(H)/P(X)
解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率,P(H)代表垃圾邮件的概率,P(X)代表X在整个训练集出现的概率,在X是单个词的情况下,还是比较容易算出,但是当分出的词是几个组合起来的,P(X|H)就不好求了,因为词组合的数太多。所以此时引进了朴素贝叶斯来求,此时准确率没有贝叶斯高,朴素贝叶斯,假定各个词都是独立的(实际上有些词不是独立的,所以才导致准确率下降),P(X|H)=P(X1|H)P(X2|H).......P(Xn|H)
(X有n个独立的词组成),P(X)=P(X1)P(X2).......P(Xn),当H是多类的情况下,要判断属于哪个类,此时需要判断P(H1|X) P(H2|X) P(H3|X) P(H4|X) P(H5|X)哪个大就判断属于哪个类
相关文章推荐
- 115个Java面试题和答案——终极列表(下)
- 比赛
- Linux Haproxy 安装和部署
- HDU5417水题
- Debug Assertion Failed! File: afx.inl
- Wiki——Windows下python2.7 爬虫框架Scrapy环境配置
- stm32 systick分析
- [Python] Python学习笔记之常用模块总结[持续更新...]
- 黑马程序员--Java基础学习(String)第十三天
- 算法初探——动态规划
- 控制上实现的连连看
- 115个Java面试题和答案——终极列表(上)
- MFC基于socket的网络聊天室的实现
- SUID + SGID + STICKY
- 每个程序员需掌握的20个代码命名小贴士
- Mac下搭建Eclipse Android开发环境
- weblogic参数说明
- Linux基础命令(持续更新中)
- iOS 让tableView选中固定行
- storm fieldsGrouping按照字段分组