从统计学的角度看线性回归
2017-05-22 19:10
127 查看
线性回归是机器学习中常用的一种监督学习方法。常被用于选择重要特征和构造基学习器。本文将用统计学中极大似然估计和贝叶斯统计的方法推导线性回归及正则化。
在以下推导中,w 为回归系数,w=(w0,w1,...,wM−1)T。(tn,xn) 为第n个样本。全体样本(t,X)=(t1,x1),...,(tN,xN),N为样本个数。
假设tn=wTxn+ϵ,ϵ∼N(0,σ2),即tn 服从正太分布,均值为wTxn,方差为σ2。
则所有训练样本 t 的概率分布函数p(t|w,σ2,X)=∏n=1NN(tn|wTxn,σ2)。
我们的目的是找出最佳回归系数w,使得p(t|w,σ2,X) 最大。最常用的解法就是求梯度找极值点。但是直接求梯度会很复杂,可以先取对数使得连乘变连加再求梯度。这么做的另一个好处是正太分布函数中含有指数函数,求对数后刚好消掉。而且对数函数的单调性保证了变换前后有相同的最优解。
lnp(t|w,σ2)=∑n=1NlnN(tn|wTxn,σ2)
=∑n=1Nln(12πσ2−−−−√e−12σ2(tn−wTxn)2)
=−12ln(2π)−lnσ−12σ2(t−Xw)T(t−Xw)
令 ED(w)=12(t−Xw)T(t−Xw)
最大化lnp(t|w,σ2)相当于最小化ED(w)。在机器学习中,ED(w)被称为损失函数。最优解 w∗=argminw{ED(w)}。
求解:
∂ED(w)∂w=−XT(t−Xw)=0
得:
w=(XTX)−1XTt
检验w是否为最优解:
∂2ED(w)∂w2=XTX
当XTX 为正定矩阵的时候,w=(XTX)−1XTt 为最优解。
有的时候为了防止过拟合,我们还会在损失函数中加入正则项(Regularizer),比如L2范数Ew(w)=12wTw。
令
E(w)=ED(w)+λEw(w)=12(t−Xw)T(t−Xw)+12λwTw
其中λ为正则化系数,λ>0。
再次求解w:
∂E(w)∂w=−XT(t−Xw)+λw=0
得:
w=(XTX+λI)−1XTt
检验w是否为最优解:
∂2ED(w)∂w2=XTX+λI
故当XTX+λI为正定矩阵(positive definite)时,w为最优解。从上式我们也可以看出,加入正则项能使结果更稳定,因为有时候XTX是非正定的,但是加上λI就变成正定矩阵了。
p(tn|w,σ2)=N(tn|wTxn,σ2)
即tn 服从正太分布,均值为wTxn,方差为σ2。故p(t|w,σ2)=N(t|Xw,σ2I)
以下推导中我们假设σ2已知,所有条件概率p(t|w,σ2)都简写成p(t|w) 。
先验概率:
p(w)=N(w|m0,S0)
根据贝叶斯公式p(w|t)=p(t|w)p(w)p(t),有:
p(w|t)∝p(t|w)p(w)
∝e−12σ2(t−Xw)T(t−Xw)e−12(w−m0)TS0−1((w−m0))
∝e−12[wT(1σ2XTX+S0−1)w−2(1σ2tTX+m0TS0−1)w]
对比高斯分布的分布函数,我们可以发现p(w|t)=N(w|μ,Σ)
其中:
Σ−1=1σ2XTX+S0−1
μ=Σ(1σ2XTt+S0−1m0)
令wMAP=argmaxwp(w|t),即wMAP最大化后验概率(maximum a posterior)。我们知道高斯分布的概率密度最大点为均值点,故wMAP=μ=Σ(1σ2XTt+S0−1m0)。
当S0趋向于无穷大时,S0−1趋于0,则wMAP趋于(XTX)−1XTt,也就是之前极大似然估计中得出的最优解。对S0趋于无穷大的直观理解是我们在得到数据前对w=m0这个猜测非常不确定,所以让它的方差无穷大。
另一方面,如果我们令S0=σ2αI,m0=0,即w的先验分布是均值为零,方差为σ2αI的高斯分布,则后验分布的对数:
lnp(w|t)∝lnp(t|w)+lnp(w)
∝−12σ2(t−Xw)T(t−Xw)−α2σ2wTw
最大化lnp(w|t) 就相当于最小化E(w)=12(t−Xw)T(t−Xw)+α2wTw,即添加了L2正则项的损失函数。由此我们发现贝叶斯线性回归中的先验分布起到了正则化的作用。直观的理解,贝叶斯线性回归中的先验分布和一般线性回归损失函数的正则项都代表了我们对样本真实分布的一种预先认知。
极大似然估计法
极大似然估计的核心思想是找出一组参数值,使得在该参数值下,训练样本被观察到的概率最大。在以下推导中,w 为回归系数,w=(w0,w1,...,wM−1)T。(tn,xn) 为第n个样本。全体样本(t,X)=(t1,x1),...,(tN,xN),N为样本个数。
假设tn=wTxn+ϵ,ϵ∼N(0,σ2),即tn 服从正太分布,均值为wTxn,方差为σ2。
则所有训练样本 t 的概率分布函数p(t|w,σ2,X)=∏n=1NN(tn|wTxn,σ2)。
我们的目的是找出最佳回归系数w,使得p(t|w,σ2,X) 最大。最常用的解法就是求梯度找极值点。但是直接求梯度会很复杂,可以先取对数使得连乘变连加再求梯度。这么做的另一个好处是正太分布函数中含有指数函数,求对数后刚好消掉。而且对数函数的单调性保证了变换前后有相同的最优解。
lnp(t|w,σ2)=∑n=1NlnN(tn|wTxn,σ2)
=∑n=1Nln(12πσ2−−−−√e−12σ2(tn−wTxn)2)
=−12ln(2π)−lnσ−12σ2(t−Xw)T(t−Xw)
令 ED(w)=12(t−Xw)T(t−Xw)
最大化lnp(t|w,σ2)相当于最小化ED(w)。在机器学习中,ED(w)被称为损失函数。最优解 w∗=argminw{ED(w)}。
求解:
∂ED(w)∂w=−XT(t−Xw)=0
得:
w=(XTX)−1XTt
检验w是否为最优解:
∂2ED(w)∂w2=XTX
当XTX 为正定矩阵的时候,w=(XTX)−1XTt 为最优解。
有的时候为了防止过拟合,我们还会在损失函数中加入正则项(Regularizer),比如L2范数Ew(w)=12wTw。
令
E(w)=ED(w)+λEw(w)=12(t−Xw)T(t−Xw)+12λwTw
其中λ为正则化系数,λ>0。
再次求解w:
∂E(w)∂w=−XT(t−Xw)+λw=0
得:
w=(XTX+λI)−1XTt
检验w是否为最优解:
∂2ED(w)∂w2=XTX+λI
故当XTX+λI为正定矩阵(positive definite)时,w为最优解。从上式我们也可以看出,加入正则项能使结果更稳定,因为有时候XTX是非正定的,但是加上λI就变成正定矩阵了。
贝叶斯线性回归
在贝叶斯统计中,有三种概率分布:先验概率(prior),似然概率(likelihood)和后验概率(posterior)。类似之前极大似然估计中,我们假设似然概率:p(tn|w,σ2)=N(tn|wTxn,σ2)
即tn 服从正太分布,均值为wTxn,方差为σ2。故p(t|w,σ2)=N(t|Xw,σ2I)
以下推导中我们假设σ2已知,所有条件概率p(t|w,σ2)都简写成p(t|w) 。
先验概率:
p(w)=N(w|m0,S0)
根据贝叶斯公式p(w|t)=p(t|w)p(w)p(t),有:
p(w|t)∝p(t|w)p(w)
∝e−12σ2(t−Xw)T(t−Xw)e−12(w−m0)TS0−1((w−m0))
∝e−12[wT(1σ2XTX+S0−1)w−2(1σ2tTX+m0TS0−1)w]
对比高斯分布的分布函数,我们可以发现p(w|t)=N(w|μ,Σ)
其中:
Σ−1=1σ2XTX+S0−1
μ=Σ(1σ2XTt+S0−1m0)
令wMAP=argmaxwp(w|t),即wMAP最大化后验概率(maximum a posterior)。我们知道高斯分布的概率密度最大点为均值点,故wMAP=μ=Σ(1σ2XTt+S0−1m0)。
当S0趋向于无穷大时,S0−1趋于0,则wMAP趋于(XTX)−1XTt,也就是之前极大似然估计中得出的最优解。对S0趋于无穷大的直观理解是我们在得到数据前对w=m0这个猜测非常不确定,所以让它的方差无穷大。
另一方面,如果我们令S0=σ2αI,m0=0,即w的先验分布是均值为零,方差为σ2αI的高斯分布,则后验分布的对数:
lnp(w|t)∝lnp(t|w)+lnp(w)
∝−12σ2(t−Xw)T(t−Xw)−α2σ2wTw
最大化lnp(w|t) 就相当于最小化E(w)=12(t−Xw)T(t−Xw)+α2wTw,即添加了L2正则项的损失函数。由此我们发现贝叶斯线性回归中的先验分布起到了正则化的作用。直观的理解,贝叶斯线性回归中的先验分布和一般线性回归损失函数的正则项都代表了我们对样本真实分布的一种预先认知。
相关文章推荐
- 【统计学】一元线性回归 Monadic Linear Regression
- 统计学简介之十八——一元线性回归
- 统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)
- 数据挖掘与统计学的关系
- 统计学的经典书籍指南zz
- [统计学教程] 第四章 统计指数
- 统计学上的知识
- 从招聘人员的角度看简历撰写
- 【gloomyfish】基于Java的统计学计算结果
- 统计学补习系列一之随机变量的数字特征
- 中位数和顺序统计学
- 《算法导论》第9章 顺序统计学 (1)最小值和最大值
- 统计学的经典书籍
- Khan公开课 - 统计学学习笔记:(二)总本、样本、集中趋势、离中趋势
- Khan公开课 - 统计学学习笔记:(十二)逻辑
- 统计学分析公式 MA移动平均线
- Coursera公开课笔记: 斯坦福大学机器学习第四课“多变量线性回归(Linear Regression with Multiple Variables)”
- Machine Learning:二(多变量线性回归问题)
- == 统计学 ==
- 概率论几大分布和统计学三大检测简述