机器学习——岭回归和LASSO回归
2016-03-04 10:58
639 查看
1.用矩阵表示多元线性回归
Y=BX+a
Q(B)=(Y-BX)T(Y-BX)达到最小时的B值。
也即是残差平方和最小时。B(Bi)的值。可以证明B的最小二乘估计=(XTX)-1XTy
其中(XTX)-1为广义逆。
如果X存在线性相关的话,XTX没有逆:
1.出现多重共线性2.当n<p,变量比样本多时,出现奇异
岭回归(Ridge Regression)
先对数据做标准化
B(K)=(XTX+kI)XTY为B的岭回归估计,其中K为岭参数,I为单位矩阵,KI为扰动。
岭迹图帮助我们发现多重共线性,以及取那个K值。在图中,k很小时,B很大,k稍微增大,B迅速变小,肯定有多重共线性。多重共线性的岭迹图一般呈喇叭口状。选喇叭附近的k值。
岭迹图可以筛选变量,有个变量的系数长期很接近于0,可以剔除这些变量。
选择k或者lambda使得:
(1)各岭回归系数的岭基本稳定
(2)正负直接穿梭时,不合乎实际意义
(3)残差平方和增大不太多。
用R语言进行岭回归:
lm.ridge(y~.,longley)
R中的ridge包(需要下载安装)
LASSO回归
(Least absolute shrinkage and selectionator operaterator)
最小的绝对收缩通过构造一个一阶惩罚函数获得一个精炼的模型,通过最终确定一些指标(变量)的系数为0(岭回归估计系数等于0的机会微乎其微),解释力很强。擅长处理具有多重共线性的数据,与岭回归一样是有偏估计。
弹性网
LAR(最小角回归Least Angel Regression)
类似于逐步向前回归的形式
R语言中有lars的包
Y=BX+a
Q(B)=(Y-BX)T(Y-BX)达到最小时的B值。
也即是残差平方和最小时。B(Bi)的值。可以证明B的最小二乘估计=(XTX)-1XTy
其中(XTX)-1为广义逆。
如果X存在线性相关的话,XTX没有逆:
1.出现多重共线性2.当n<p,变量比样本多时,出现奇异
岭回归(Ridge Regression)
先对数据做标准化
B(K)=(XTX+kI)XTY为B的岭回归估计,其中K为岭参数,I为单位矩阵,KI为扰动。
岭迹图帮助我们发现多重共线性,以及取那个K值。在图中,k很小时,B很大,k稍微增大,B迅速变小,肯定有多重共线性。多重共线性的岭迹图一般呈喇叭口状。选喇叭附近的k值。
岭迹图可以筛选变量,有个变量的系数长期很接近于0,可以剔除这些变量。
选择k或者lambda使得:
(1)各岭回归系数的岭基本稳定
(2)正负直接穿梭时,不合乎实际意义
(3)残差平方和增大不太多。
用R语言进行岭回归:
lm.ridge(y~.,longley)
R中的ridge包(需要下载安装)
LASSO回归
(Least absolute shrinkage and selectionator operaterator)
最小的绝对收缩通过构造一个一阶惩罚函数获得一个精炼的模型,通过最终确定一些指标(变量)的系数为0(岭回归估计系数等于0的机会微乎其微),解释力很强。擅长处理具有多重共线性的数据,与岭回归一样是有偏估计。
弹性网
LAR(最小角回归Least Angel Regression)
类似于逐步向前回归的形式
R语言中有lars的包
相关文章推荐
- IT玄幻小说
- 排序算法---直接选择排序算法
- //画虚线
- oracle优化:避免全表扫描
- centos彻底删除mysql以及查看MySQL的安装路径
- JavaScript动态添加文本框
- 线性代数复习四——矩阵的维数和秩
- ios 纯代码屏幕适配
- “互联网+”的六大商业模式
- C++中引用和指
- Hibernate映射关系(注解方式)
- J2EE的十三个技术规范
- Mysql基本数据类型
- iOS代理实现tableViewCell中的button在viewController中响应
- Centos服务器下禅道管理软件安装与部署
- MFC非模态对话框
- Spark代码3之Action:reduce,reduceByKey,sorted,lookup,take,saveAsTextFile
- 【leetcode】【105】Construct Binary Tree from Preorder and Inorder Traversal
- 数值转换为String(std::to_string)
- ECSHOP的订单状态在数据库中的表现