[置顶] 【R语言 数据分析】多重共线性问题
2017-07-18 09:33
363 查看
1、什么是多重共线性?
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
2、多重共线性对回归模型的影响
@1、完全共线性下参数估计量不存在
@2、近似共线性下OLS估计量非有效
@3、参数估计量经济含义不合理
@4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
@5、模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
3、利用计算特征根发现多重共线性
4、Kappa()函数
5、多重共线性解决办法
(1)排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。
(2)差分法
时间序列数据、线性模型:将原模型变换为差分模型。
(3)减小参数估计量的方差:岭回归法(Ridge Regression)。
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
2、多重共线性对回归模型的影响
@1、完全共线性下参数估计量不存在
@2、近似共线性下OLS估计量非有效
@3、参数估计量经济含义不合理
@4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
@5、模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
3、利用计算特征根发现多重共线性
4、Kappa()函数
5、多重共线性解决办法
(1)排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。
(2)差分法
时间序列数据、线性模型:将原模型变换为差分模型。
(3)减小参数估计量的方差:岭回归法(Ridge Regression)。
##########################R语言分析############################## rm(list=ls()) gc() head(longley) View(longley) str(longley) summary(longley) ################研究变量之间是否存在共线性###################### xx <- cor(longley[2:7]) #如果以GNP.deflator作为因变量y ,研究其余6个变量是否存在多重共线性 # 在R中我们通过cor和kappa函数来研究数据框中某些变量之间是否存在多重共线性, # 基本原理是通过研究矩阵的最大特征值和最小特征值之间的比值。具体如下: kappa(xx,exact =TRUE) #####这个比值如果大于1000,变量之间存在严重的多重共线性################ #################计算特征值和特征向量################ ####################利用计算特征根发现多重共线性############# eigen(xx) ####可将其中一个线性相关的变量提出,解决多重线性回归##########
相关文章推荐
- [置顶] 【R语言 数据分析】R语言获取Excel数据
- R语言分析分析大数据的一些问题
- [置顶] 【R语言 数据处理和可视化】一个手游公司销售额数据分析
- [置顶] 【R语言 数据分析】豆瓣电影R语言爬虫和数据分析
- 数据挖掘-层次聚类·单身狗问题分析
- fmri数据分析图像格式及转换问题——基于spm讨论
- 关于PWA2007数据分析若干问题
- 大数据之R语言速成与实战,送给数据分析爱好者
- [置顶] 关于C++、C#实现EXCEL数据库批量导入数据库万行以上数据效率问题
- 分析数据:使用Matplotlib创建散点图---路径问题
- 数据分析系列剧第一集:问题诊断
- [置顶] java IO 问题分析
- EAS WAF1新增单据保存时提示没有数据权限的问题分析。
- TCP同步传送数据示例以及可能出现问题分析
- [置顶] Hadoop实战演练:搜索数据分析----TopK计算(2)
- 银行影像内容大数据系统设计与实例问题分析
- [置顶] linux网络编程之:接受网络中的ARP数据并分析(附C语言实现)
- R语言 | 数据挖掘中的常用统计分析知识
- 能源物联网中如何处理上报的大量数据问题的思路分析(题目有点长,但是我不介意它更长)--后续会继续补充
- ajax请求之返回数据的顺序问题分析