您的位置：首页 > 其它

机器学习笔记（二）L1，L2正则化

2016-10-21 23:42 288 查看

2.正则化

2.1 什么是正则化？

(截自李航《统计学习方法》)

常用的正则项有L1，L2等，这里只介绍这两种。

2.2 L1正则项

L1正则，又称lasso，其公式为：

L1=α∑kj=1|θj|

特点：约束θj的大小，并且可以产生稀疏性

[问题] : 为什么L1正则可以产生稀疏性？

从图形上理解，L1正则的实质，相当于约束了θ的绝对值之和的大小。将这个约束条件，转化到解空间中，就是一个有角图形。对于这个有角图形，当我们求解时，会有更大几率去接触到角。而角就代表着，坐标轴上的交点，有的模型参数为0，也就是模型参数对于的这个特征被淘汰。

从贝叶斯的角度看，

θ=argmax(p(θ|D))=argmax(p(D|θ)p(θ)p(D))=argmax(p(D|θ)p(θ))

p(D|θ)=∏mn=1p(Dn|θ) p(θ)=∏ci=1∏dj=1p(θij)

对p(D|θ)p(θ)取对数得：

θ=argmax(∑mn=1ln(p(D|θ))+ln(p(θ))

假设θij满足laplace分布，则p(θij)=−12bexp{|θij−μ|b}

θ=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1ln(p(θij))=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1θijb)=argmax(∑mn=1ln(p(D|θ))+1b∑ci=1∑dj=1θij)

可以看到，加上正则项L1，在贝叶斯的角度上，等同于对θ假设一个先验分布为拉普拉斯分布。

而拉普拉斯分布如图：

由上可知，当μ=0时，它在0的概率最大，尾部较正态分布更平坦。表示它更倾向于去使θij等于0，因而产生稀疏解。

(因此，在SBMLR算法中,也是采用了L1正则项，来实现特征稀疏性)

2.3 L2正则项

L2正则，又称ridge，其公式为：

L2=α∑ci=1∑dj=1(θij)2

特点：约束θij的大小，使之尽可能小。

[问题]: 为什么L2没有倾向产生稀疏解？

从图形上，见L1正则项图形那张图。L2约束条件在解空间中没有角，因而更倾向于约束其值的大小，而不是使其值为0。

从贝叶斯的角度，L2相当于给θ一个先验分布为高斯分布。

p(θij)=12π√σexp{−(θij−μ)22σ2}

θ=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1ln(p(θij))=argmax(∑mn=1ln(p(D|θ))+∑ci=1∑dj=1(θij−μ)22σ2)=argmax(∑mn=1ln(p(D|θ))+12σ2∑ci=1∑j=1θ2ij

与上述拉普拉斯分布相对比，我们可以看出，它在两端尾部略高与拉普拉斯分布，在0处更平坦。这也说明了加上L2正则项，它更趋向于产生趋近于0的值，而不是稀疏。

[总结] :

在多项逻辑回归的损失函数上，加上L1正则项，可以实现稀疏性，达到特征选择的目的。

L(θ)=ED+EW=ED+α∑ci=1∑dj=1|θij|

此时，L(θ)的导数:

∂L(θ)∂θij=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂ED∂θij+α∂ED∂θij−α∂ED∂θij+α∂ED∂θij−α0θij>0θij<0θij=0and∂ED∂θij>|α|θij=0and∂ED∂θij<−|α|otherwise

可以看到，当ED与模型参数的偏导数的绝对值小于α，且模型参数=0时，它将稳定在0。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航