六、机器学习系统设计笔记之分类II情感分析
2015-10-11 11:05
399 查看
1、路线图概述
朴素贝叶斯;阐释词性标注;
2、获取推特数据
3、朴素贝叶斯分类器介绍
朴素贝叶斯最优工作假设:所有特征相互独立。
贝叶斯定理:P(A)P(B|A)=P(B)|*P(A|B)
将A替换成特征F1,和F2出现的概率,把B想象成我们的类别C,得到P(F1,F2)P(C|F1,F2)=P(C)|*P(F1,F2|C)
得P(C|F1,F2)=P(C)|*P(F1,F2|C)/P(F1,F2)
P(C|F1,F2)就是我们常说的后验概率,P(C)就是在不知道数据时类别C的概率
因为F1和F2假设相对独立,可以得到P(C|F1,F2)=P(C)|*P(F1|C)×P(F2|C)/P(F1,F2)
分类器:由上得到分类器,还需要选择概率最高的类别Cbest,它对真是概率不感兴趣,只关注哪个类别更有可能
Cbest=argmaxP(C=c)×P(F1|C=c)×P(F2|C=c)
考虑未出现词语的情况:加1平滑
考虑算术下溢:log(xy)=log(x)+log(y)
在现实中,只关心哪个类别具有更高的后验概率
4、创建第一个分类器并调优
使用TfidfVectorrize,将原始推文转换为TF-IDF特征值,
调优:
Scikit-learn里面有一个专门处理参数训练类,叫做GridSearchCV,它使用一个估算器,得到最优分类器的参数
5、清洗推文
表情的处理
6、将词语类型考虑进去
朴素贝叶斯;阐释词性标注;
2、获取推特数据
3、朴素贝叶斯分类器介绍
朴素贝叶斯最优工作假设:所有特征相互独立。
贝叶斯定理:P(A)P(B|A)=P(B)|*P(A|B)
将A替换成特征F1,和F2出现的概率,把B想象成我们的类别C,得到P(F1,F2)P(C|F1,F2)=P(C)|*P(F1,F2|C)
得P(C|F1,F2)=P(C)|*P(F1,F2|C)/P(F1,F2)
P(C|F1,F2)就是我们常说的后验概率,P(C)就是在不知道数据时类别C的概率
因为F1和F2假设相对独立,可以得到P(C|F1,F2)=P(C)|*P(F1|C)×P(F2|C)/P(F1,F2)
分类器:由上得到分类器,还需要选择概率最高的类别Cbest,它对真是概率不感兴趣,只关注哪个类别更有可能
Cbest=argmaxP(C=c)×P(F1|C=c)×P(F2|C=c)
考虑未出现词语的情况:加1平滑
考虑算术下溢:log(xy)=log(x)+log(y)
在现实中,只关心哪个类别具有更高的后验概率
4、创建第一个分类器并调优
使用TfidfVectorrize,将原始推文转换为TF-IDF特征值,
调优:
Scikit-learn里面有一个专门处理参数训练类,叫做GridSearchCV,它使用一个估算器,得到最优分类器的参数
5、清洗推文
表情的处理
6、将词语类型考虑进去
相关文章推荐
- TruSeq 应该指的是试剂盒名字 NEB
- lintcode 容易题:Unique Characters 判断字符串是否没有重复字符
- 图解Linux命令之--alias命令
- enctype=“multipart/form-data”的使用
- 项目整体管理、项目范围管理知识点
- 【软考】之强实体、弱实体
- 冒泡排序
- SimpleCropView 裁剪图片
- mysql存储引擎
- 泛型类
- Dateformat
- ajax Class
- scu1529: Equator (DP+贪心)
- SimpleAdapter
- 黑马程序员--C语言之指针<二>
- commons-fileupload的详细介绍与使用
- eclipse部署WEB项目时经常遇到的问题
- 互联网创业公司如何规模化研发团队?
- Oracle主键(Primary Key)使用详细的说明
- An Overview of Project Katana