机器学习笔记(二)L1,L2正则化
2016-10-21 23:42
288 查看
2.正则化
2.1 什么是正则化?
(截自李航《统计学习方法》)
常用的正则项有L1,L2等,这里只介绍这两种。
2.2 L1正则项
L1正则,又称lasso,其公式为: L1=α∑kj=1|θj|
特点:约束θj的大小,并且可以产生稀疏性
[问题] : 为什么L1正则可以产生稀疏性?
从图形上理解,L1正则的实质,相当于约束了θ的绝对值之和的大小。将这个约束条件,转化到解空间中,就是一个有角图形。对于这个有角图形,当我们求解时,会有更大几率去接触到角。而角就代表着,坐标轴上的交点,有的模型参数为0,也就是模型参数对于的这个特征被淘汰。
从贝叶斯的角度看,
θ=argmax(p(θ|D))=argmax(p(D|θ)p(θ)p(D))=argmax(p(D|θ)p(θ))
p(D|θ)=∏mn=1p(Dn|θ) p(θ)=∏ci=1∏dj=1p(θij)
对p(D|θ)p(θ)取对数得:
θ=argmax(∑mn=1ln(p(D|θ))+ln(p(θ))
假设θij满足laplace分布, 则p(θij)=−12bexp{|θij−μ|b}
θ=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1ln(p(θij))=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1θijb)=argmax(∑mn=1ln(p(D|θ))+1b∑ci=1∑dj=1θij)
可以看到,加上正则项L1,在贝叶斯的角度上,等同于对θ假设一个先验分布为拉普拉斯分布。
而拉普拉斯分布如图:
由上可知,当μ=0时,它在0的概率最大,尾部较正态分布更平坦。表示它更倾向于去使θij等于0,因而产生稀疏解。
(因此,在SBMLR算法中,也是采用了L1正则项,来实现特征稀疏性)
2.3 L2正则项
L2正则,又称ridge,其公式为: L2=α∑ci=1∑dj=1(θij)2
特点:约束θij的大小,使之尽可能小。
[问题]: 为什么L2没有倾向产生稀疏解?
从图形上,见L1正则项图形那张图。L2约束条件在解空间中没有角,因而更倾向于约束其值的大小,而不是使其值为0。
从贝叶斯的角度,L2相当于给θ一个先验分布为高斯分布。
p(θij)=12π√σexp{−(θij−μ)22σ2}
θ=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1ln(p(θij))=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1(θij−μ)22σ2)=argmax(∑mn=1ln(p(D|θ))+12σ2∑ci=1∑j=1θ2ij
与上述拉普拉斯分布相对比,我们可以看出,它在两端尾部略高与拉普拉斯分布,在0处更平坦。这也说明了加上L2正则项,它更趋向于产生趋近于0的值,而不是稀疏。
[总结] :
在多项逻辑回归的损失函数上,加上L1正则项,可以实现稀疏性,达到特征选择的目的。
L(θ)=ED+EW=ED+α∑ci=1∑dj=1|θij|
此时,L(θ)的导数:
∂L(θ)∂θij=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂ED∂θij+α∂ED∂θij−α∂ED∂θij+α∂ED∂θij−α0θij>0θij<0θij=0and∂ED∂θij>|α|θij=0and∂ED∂θij<−|α|otherwise
可以看到,当ED与模型参数的偏导数的绝对值小于α,且模型参数=0时,它将稳定在0。
相关文章推荐
- 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
- 机器学习正则化L0,L1,L2范数
- 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
- 读“机器学习中的范数规则化之(一)L0、L1与L2范数”笔记
- 【机器学习】贝叶斯角度看L1,L2正则化
- 初学者如何学习机器学习中的L1和L2正则化
- 机器学习中正则化方法简介:L1和L2正则化(regularization)、数据集扩增、dropout
- dropout和L1,L2正则化的理解笔记
- 【笔记】机器学习里的各种LOSS(L1,L2)
- 初学者如何学习机器学习中的L1和L2正则化
- 机器学习——正则化 (L1与L2范数)
- 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
- [置顶] 【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge
- 机器学习:L1与L2正则化项
- 机器学习中的范数规则化 (L0、L1、L2和核范数)
- 机器学习中的范数规则化之(一)L0、L1与L2范数
- 机器学习中的规则化范数(L0, L1, L2, 核范数)
- 机器学习中的范数规则化:L0、L1与L2范数,核范数和规则项参数选择
- 机器学习中的范数规则化之(一)L0、L1与L2范数
- 机器学习中的范数规则化之(一)和(二)L0、L1与L2范数、核范数