您的位置：首页 > 其它

文本分类的特征选择方法之信息增益

2012-09-15 19:28 274 查看

做特征选择，目的就是选出对分类最有帮助的特征项。但是交给计算机去处理的话，需要量化。因此如何选出这最有帮助的，就出现了种种方法。

一般来说，选择特征在3000的时候，总体效益是很不错的，再往上涨，占用空间增大，但是结果增长并不明显。

信息增益：它依据某特征项ti为整个分类所能提供的信息量多少来衡量该特征项的重要程度，从而决定对该特征项的取舍。

某个特征项ti的信息增益是指有该特征或没有该特征时，为整个分类所能提供的信息量的差别，其中，信息量的多少由熵来衡量。

熵可以视为描述一个随即变量的不确定性的数量。熵越大，不确定性越大，那么，正确估计其值的可能性就越小。

『一直觉得熵是一项太伟大的发明了！我们本无法衡量信息量的大小，而熵的发明彻底解决这个问题啊。膜拜香农！』

具体到文本分类来说，我们现在有个term ti，要计算它的信息增益来决定它是不是对分类是有帮助的。所以，先看不考虑任何特征时文档的熵，也就是没有任何特征的时候做分类，我们有多少的信息。再看考虑了该特征后，我们能有多少的信息。很明显，二者之差就是该特征带给我们的信息。这个时候可能有疑问了，前面的信息少，后面的信息多啊，相减不是负数么？

no！我们这儿用的是熵，是混乱程度，不确定程度。计算有多少信息，是计算不确定性有多大。因此前面的不确定性大，帮助我们分类的有用信息少；考虑进新特征后，后者的不确定性小了，信息多。因此，二者之差就是该特征带给我们的信息。

参考：《统计自然语言处理》宗成庆编著

信息增益最大的问题在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

参考：http://baike.baidu.com/view/1231985.htm?fromTaglist

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航