您的位置：首页 > 其它

将特征离散成高维的布尔特征可以解决分类模型的非线性问题

2015-12-11 11:55 211 查看

原文：http://blog.sina.com.cn/s/blog_818f5fde0102vxf7.html

之前实习，公司团队用LR进行推荐排序的时候，都会将所有特征离散成非常高维的0/1特征（千万维级别），然后再进行模型训练。大牛说这样可以解决模型的非线性问题。因为逻辑回归只能拟合线性分类问题，也不能像SVM那样利用核函数（之前在博文http://blog.sina.com.cn/s/blog_818f5fde0102vvpy.html里已经讲过，因为这样做会造成非常大的计算开销），如果遇到非线性问题，效果会不好。但是如果对特征进行布尔化处理，则可以消除非线性影响，提高准确率。当时似懂非懂，也没有追问为什么离散化特征可以解决非线性问题。最近想到这个问题，加以推敲，突然搞明白了，所以写下博文mark一下。纯属个人推敲结果，如果不对，敬请指出。

为了更清晰地说明问题，作如下几点假设：

（1）假设现在的分类问题里只有一维连续特征（即x为单维向量）

（2）假设真实决策面为简单二次函数，即