您的位置：首页 > 其它

特征向量的归一化方法

2013-11-28 20:35 302 查看

在使用KNN（k-Nearest Neighbours）根据特征值进行分类的时候，如果所有变量位于同一值域范围内，利用这些变量一次性算出距离值是有意义的。不过，假设我们引入一个对最终的分类结果产生影响的新变量（不同类型的变量 Heterogenous Varibales）。与我们目前使用过的变量不同（假设之前的变量的取值均介于0和100之间），这些变量可能会达到1000。很显然，和原先的变量相比，这个新的变量对距离计算所产生的影响更为显著——其影响将超过任何其他变量对距离计算所构成的影响，这意味着，在计算距离的过程中其他变量根本就未被考虑在内。
（摘自《Programming Collective Intelligence》）

　　所以在使用KNN之前需要对所有的变量进行归一化处理。下面介绍几种归一化的方法：

　　1、线性函数转换，表达式如下：

　　　　y=(x-MinValue)/(MaxValue-MinValue)

　　2、对数函数转换，表达式如下：

　　　　y=log10 (x)

　　3、反余切函数转换，表达式如下：

　　　　y=arctan(x)*2/PI

　　4、减去均值，乘以方差：

　　　　y=(x-means)/ variance

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航