您的位置:首页 > 其它

机器学习笔记--回归分析(2)

2015-03-26 20:38 162 查看
一、多元线性回归模型

1.  概念

当Y值的影响因素不唯一时,采用多元线性回归模型

 




例如商品的销售额可能不电视广告投入,收音机广告投入,报纸广告投入有关系,可以有




是关于βi的函数。分别对βi求偏导并令偏导等于0,可以解出相应的βi的值

2.  例子

使用R中的Swiss数据集,包含了1888年瑞士国民经济发展数据集



我们要构造的模型是社会的繁荣程度和其它变量的关系:



Fertility就作为因变量,其它变量(.代表)作为自变量,可以看到结果

R值为0.7067说明这个模型变量是比较相关的,并且p值非常小说明这个模型不成立的概率很小,其次Residuals显示了平面上不同部分的残差,即四分位数和最小值、最大值。但是对于变量Examination的显著度水平很低,说明这个变量的关联性不大,我们可以将其剔除。(国家的发达程度和考试也许没多大关系…)

二、虚拟变量

例如

对于体重和身高、性别、人种都有关系,但是性别和人种是离散变量所以我们用虚拟变量表示,取0或1

如:isman iswoman isyellow isblack iswhite这几个变量

可以构建方程

W = a+bh+cisman+disyellow+eisblack(虚拟变量只取n-1个,因为不是男的就是女的)

所以,性别和人种只是影响截距,斜率是一样的,即虚拟变量是调整截距的作用。

如果想影响斜率,则用乘法模型:

W = a+bh+c*iswoman*h+d*isman*h(这里需要取n个)

若还想即影响斜率也影响截距,使用混合模型:

W = a+bh+cisman+disyellow+ e*iswoman*h+f*isman*h
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: