您的位置：首页 > 其它

【R笔记】glm函数报错原因及解析

2016-04-30 19:30 183 查看

R语言glm函数学习：

【转载时请注明来源】：http://www.cnblogs.com/runner-ljt/

Ljt

作为一个初学者，水平有限，欢迎交流指正。

glm函数介绍：

glm(formula,family=family.generator,data,control=list(...))

family：每一种响应分布（指数分布族）允许各种关联函数将均值和线性预测器关联起来。

常用的family：

binomal(link='logit')----响应变量服从二项分布，连接函数为logit，即logistic回归

binomal(link='probit')----响应变量服从二项分布，连接函数为probit

poisson(link='identity')----响应变量服从泊松分布，即泊松回归

control:控制算法误差和最大迭代次数

glm.control(epsilon=1e-8,maxit=25,trace=FALSE)

-----maxit:算法最大迭代次数，改变最大迭代次数：control=list(maxit=100)

glm函数使用：

　　

注意在使用glm函数就行logistic回归时，出现警告：

Warningmessages:
1:glm.fit:算法没有聚合
2:glm.fit:拟合機率算出来是数值零或一

同时也可以发现两个系数的P值都为0.999，说明回归系数不显著。

第一个警告：算法不收敛。
由于在进行logistic回归时，依照极大似然估计原则进行迭代求解回归系数，glm函数默认的最大迭代次数maxit=25，当数据不太好时，经过25次迭代可能算法还不收敛，所以可以通过增大迭代次数尝试解决算法不收敛的问题。但是当增大迭代次数后算法仍然不收敛，此时数据就是真的不好了，需要对数据进行奇异值检验等进一步的处理。

　　

如上，通过增加迭代次数，解决了第一个警告，此时算法收敛。

但是第二个警告仍然存在，且回归系数P=1，仍然不显著。

第二个警告：拟合概率算出来的概率为0或1

首先，这个警告是什么意思？
我们先来看看训练样本的logist回归结果，拟合出的每个样本属于'setosa'类的概率为多少？

　

可以看出训练样本为'setosa'类的概率不是几乎为0，就是几乎为1，并不是我们预想中的logistic模型的S型曲线，这就是第二个警告的意思。

那么问题来了，为什么会出现这种情况？
（以下内容只是本人参考一些解释的个人理解）

这种情况的出现可以理解为一种过拟合，由于数据的原因，在回归系数的优化搜索过程中，使得分类的种类属于某一种类（y=1)的线性拟合值趋于大，分类种类为另一类(y=0)的线性拟合值趋于小。

由于在求解回归系数时，使用的是极大似然估计的原理，即回归系数在搜索过程中使得似然函数极大化：

所以在搜索过程中偏向于使得y=1的h(x)趋向于大，而使得y=0的h(x)趋向于小。

即系数Θ使得Y=1类的-ΘTX趋向于大，使得Y=0类的-ΘTX趋向于小。而这样的结果就会导致P(y=1|x;Θ)-->1；P(y=0|x;Θ)-->0.

那么问题又来了，什么样的数据会导致这样的过拟合产生呢？

先来看看上述logistic回归中种类为setosa和versicolor的样本pl值的情况。（横轴代表pl值，为了避免样本pl数据点叠加在一起，增加了一个无关的y值使样本点展开）

可以看出两类数据明显的完全线性可分。

故在回归系数搜索过程中只要使得一元线性函数h(x)的斜率的绝对值偏大，就可以实现y=1类的h(x)趋向大，y=0类的h(x)趋向小。

所以当样本数据完全可分时，logistic回归往往会导致过拟合的问题，即出现第二个警告：拟合概率算出来的概率为0或1。

出现了第二个警告后的logistic模型进行预测时往往是不适用的，对于这种线性可分的样本数据，其实直接使用规则判断的方法则简单且适用（如当pl<2.5时则直接判断为setosa类，pl>2.5时判断为versicolor类）。

以下，对于不完全可分的二维训练数据展示logistic回归过程。

　　

拟合概率曲线图：

（基本上符合logistic模型的S型曲线）

训练样本散点图及分类边界：

（画logistic回归的分类边界即画曲线h(x)=0.5）

来源：http://www.cnblogs.com/runner-ljt/p/4574275.html

来自为知笔记(Wiz)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航