您的位置:首页 > 其它

文本分类的特征选择方法之信息增益

2012-09-15 19:28 274 查看
做特征选择,目的就是选出对分类最有帮助的特征项。但是交给计算机去处理的话,需要量化。因此如何选出这最有帮助的,就出现了种种方法。

一般来说,选择特征在3000的时候,总体效益是很不错的,再往上涨,占用空间增大,但是结果增长并不明显。

信息增益:它依据某特征项ti为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。

某个特征项ti的信息增益是指有该特征或没有该特征时,为整个分类所能提供的信息量的差别,其中,信息量的多少由熵来衡量。

熵可以视为描述一个随即变量的不确定性的数量。熵越大,不确定性越大,那么,正确估计其值的可能性就越小。

『一直觉得熵是一项太伟大的发明了!我们本无法衡量信息量的大小,而熵的发明彻底解决这个问题啊。膜拜香农!』

具体到文本分类来说,我们现在有个term ti,要计算它的信息增益来决定它是不是对分类是有帮助的。所以,先看不考虑任何特征时文档的熵,也就是没有任何特征的时候做分类,我们有多少的信息。再看考虑了该特征后,我们能有多少的信息。很明显,二者之差就是该特征带给我们的信息。这个时候可能有疑问了,前面的信息少,后面的信息多啊,相减不是负数么?

no!我们这儿用的是熵,是混乱程度,不确定程度。计算有多少信息,是计算不确定性有多大。因此前面的不确定性大,帮助我们分类的有用信息少;考虑进新特征后,后者的不确定性小了,信息多。因此,二者之差就是该特征带给我们的信息。

参考:《统计自然语言处理》 宗成庆 编著

信息增益最大的问题在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

参考:http://baike.baidu.com/view/1231985.htm?fromTaglist
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: