您的位置:首页 > 其它

六、机器学习系统设计笔记之分类II情感分析

2015-10-11 11:05 399 查看
1、路线图概述

 朴素贝叶斯;阐释词性标注;

2、获取推特数据

3、朴素贝叶斯分类器介绍

朴素贝叶斯最优工作假设:所有特征相互独立。

贝叶斯定理:P(A)P(B|A)=P(B)|*P(A|B)

将A替换成特征F1,和F2出现的概率,把B想象成我们的类别C,得到P(F1,F2)P(C|F1,F2)=P(C)|*P(F1,F2|C)

得P(C|F1,F2)=P(C)|*P(F1,F2|C)/P(F1,F2)

P(C|F1,F2)就是我们常说的后验概率,P(C)就是在不知道数据时类别C的概率

因为F1和F2假设相对独立,可以得到P(C|F1,F2)=P(C)|*P(F1|C)×P(F2|C)/P(F1,F2)

 分类器:由上得到分类器,还需要选择概率最高的类别Cbest,它对真是概率不感兴趣,只关注哪个类别更有可能

 Cbest=argmaxP(C=c)×P(F1|C=c)×P(F2|C=c)

考虑未出现词语的情况:加1平滑 

考虑算术下溢:log(xy)=log(x)+log(y)

在现实中,只关心哪个类别具有更高的后验概率

4、创建第一个分类器并调优

使用TfidfVectorrize,将原始推文转换为TF-IDF特征值,

调优:



Scikit-learn里面有一个专门处理参数训练类,叫做GridSearchCV,它使用一个估算器,得到最优分类器的参数

5、清洗推文

表情的处理

6、将词语类型考虑进去
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: