论文总结4 特征选择方法
2012-12-05 13:48
183 查看
1、信息增益IG
InfGain (W)
=H(C)-H(C|W )
=P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)+P(`W)∑iP(Ci|`W)logP(Ci|`W )/P(Ci)
2、期望交叉熵ECE
CrossEntryTxt(W) = P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)
3、互信息MI
MutualInfoTxt(W) = ∑iP(Ci)logP(W|Ci)/P(W)
4、改进的互信息IMI
IMI(W) = ∑iP(Ci)|logP(W|Ci)/P(W)|
5、互信息比值
MutualInfoRatio(W)=
0, if MaxInfo=0 LessMaxInfo=0;
а, if MaxInfo≠0 LessMaxInfo=0;
MaxInfo/LessMaxInfo, if LessMaxInfo≠0
其中: MaxInfo = max{| logP(W|Ci)/P(W)|}, LessMaxInfo = {| logP(W|Ci)/P(W)|- MaxInfo},i = 1,2…M. M是训练语料的类别数,а是预先给定的一个较大的常数.
比了4和5,5的效果好。
6、文档频率DF
DF(£)=出现特征f的文档数训练集的总文档数。
7、 X2统计量CHI(X2 Statistic)
CHI(F)=ΣP(ci)x2(t,ci)= ∑iP(Ci)N(AD-BC)2/(A+C)(B+D)(A+B)(C+D)
8、文本证据权(WET,the Weight of Evidence for Text)
WET(t)=P(t) ΣP(ci)| P(Ci|t)(1-P(Ci))/P(Ci)(1- P(Ci|t))|
9、几率比(0R,Odds Ratio)
Or(t)=log P(t|Cpos) (1- P(t|Cneg)/ P(t|Cneg) (1- P(t|Cpos)
结论:(1)OR方法的效果是最好的,IG、CHI和ECE次之,WET和DF再次,MI的效果是最差的。 (2)OR之所以会取得最好的效果是因为它不是将所有的类别同等对待,而是只关心目标类别。 (3)MI的效果最差,究其原因可能是MI没有考虑特征词出现的频度。(4)当特征维数从1 000到4 000变化时,F1值的变化是比较显著的,而当特征维数>6 000时,系统性能趋于平稳,其变化是缓慢的。
InfGain (W)
=H(C)-H(C|W )
=P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)+P(`W)∑iP(Ci|`W)logP(Ci|`W )/P(Ci)
2、期望交叉熵ECE
CrossEntryTxt(W) = P(W)∑iP(Ci|W)logP(Ci|W)/P(Ci)
3、互信息MI
MutualInfoTxt(W) = ∑iP(Ci)logP(W|Ci)/P(W)
4、改进的互信息IMI
IMI(W) = ∑iP(Ci)|logP(W|Ci)/P(W)|
5、互信息比值
MutualInfoRatio(W)=
0, if MaxInfo=0 LessMaxInfo=0;
а, if MaxInfo≠0 LessMaxInfo=0;
MaxInfo/LessMaxInfo, if LessMaxInfo≠0
其中: MaxInfo = max{| logP(W|Ci)/P(W)|}, LessMaxInfo = {| logP(W|Ci)/P(W)|- MaxInfo},i = 1,2…M. M是训练语料的类别数,а是预先给定的一个较大的常数.
比了4和5,5的效果好。
6、文档频率DF
DF(£)=出现特征f的文档数训练集的总文档数。
7、 X2统计量CHI(X2 Statistic)
CHI(F)=ΣP(ci)x2(t,ci)= ∑iP(Ci)N(AD-BC)2/(A+C)(B+D)(A+B)(C+D)
8、文本证据权(WET,the Weight of Evidence for Text)
WET(t)=P(t) ΣP(ci)| P(Ci|t)(1-P(Ci))/P(Ci)(1- P(Ci|t))|
9、几率比(0R,Odds Ratio)
Or(t)=log P(t|Cpos) (1- P(t|Cneg)/ P(t|Cneg) (1- P(t|Cpos)
结论:(1)OR方法的效果是最好的,IG、CHI和ECE次之,WET和DF再次,MI的效果是最差的。 (2)OR之所以会取得最好的效果是因为它不是将所有的类别同等对待,而是只关心目标类别。 (3)MI的效果最差,究其原因可能是MI没有考虑特征词出现的频度。(4)当特征维数从1 000到4 000变化时,F1值的变化是比较显著的,而当特征维数>6 000时,系统性能趋于平稳,其变化是缓慢的。
相关文章推荐
- 机器学习知识点(三十七)特征选择方法总结
- 特征选择方法总结
- 科学论文1-软件缺陷预测中基于聚类分析的特征选择方法
- 特征选择方法总结
- 特征选择方法总结
- 特征选择:常见方法总结
- [每日问答]特征选择有哪些方法?
- 特征选择的方法
- 特征选择方法之信息增益
- 信息增益的特征选择方法
- ML—常见的特征选择方法
- JQuery入门总结(二)【选择器、方法应用】
- 总结:ADO.NET在开发中的部分使用方法和技巧 选择自 yangyifan0 的 Blog
- 结合Scikit-learn介绍几种常用的特征选择方法
- 特征选择方法之信息增益
- 干货:结合Scikit-learn介绍几种常用的特征选择方法
- 数据结构排序算法总结包括选择、插入、希尔、快速、冒泡等排序方法
- 文本分类特征选择方法——卡方检验信息增益
- 特征选择的3种方法