您的位置:首页 > 其它

L1 L2正则化及贝叶斯解释

2017-10-19 10:19 316 查看


1 L1正则化和L2正则化区别

L1得到的是稀疏权值,可以用于特征选择,假设参数服从Laplace分布(贝叶斯角度理解)
L2得到的是平滑权值,因为所有权值都趋于最小,假设参数服从Gauss分布,(并趋于一致,因为一致时平方和,最小)


2 L1正则化稀疏解理解

2.1问题转化



2.2图形化解释





2.3其他理解









2.4 L1求导

求导方法:近端梯度下降

参考:
[1]机器学习中的范数规则化之(一)L0、L1与L2范数

http://blog.csdn.net/zouxy09/article/details/24971995/

[2]l1相比于
l2为什么容易获得稀疏解?

https://www.zhihu.com/question/37096933?sort=created

3贝叶斯角度理解正则化

http://www.voidcn.com/blog/shenxiaoming77/article/p-5011766.html

http://blog.csdn.net/zhuxiaodong030/article/details/54408786

3.1先验知识

正则化是对经验风险函数进行约束,可以理解引入先验知识,具有引导作用,使优化过程中倾向于选择满足约束条件梯度减小的方向进行;

不理解:正则化解决了逆问题的不适定性,产生的解存在、唯一、同时依赖于数据,噪声对不适定性影响弱,解不会过拟合,如果先验合适,其解倾向于符合真解,即使训练集中彼此间不相关样本很少

L1 L2正则化可以理解为模型导入了先验分布,对模型进行惩罚,L1正则化引Laplace分布,L2正则化引入Gauss分布

3.2贝叶斯理解





正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率;

对贝叶斯后验概率,取对,可以转化为:损失函数+正则化项









3.3概率论角度解释平滑与稀疏

高斯分布,对大的w,概率较低,而在接近0的时候,概率变换缓慢,所以对于小概率容忍较好,最终解的w趋于0附近
拉普拉斯分布,只有很小的w,才能得到较大的概率,偏向于0,更加稀疏
分析时要考虑先验,当0较多时,模型偏于简单,先验会较低



3.4极大似然与后验估计

http://www.cnblogs.com/little-YTMM/p/5399532.html

最大后验估计可以根据经验数据,对难以观察的量进行估计,如参数估计,与最大似然不同的是,最大后验融入了估计量的先验分布,即事先知道估计量满足的分布模型,因此最大后验估计可以看作规则化的最大似然估计;
L1 L2正则化,都可以转化为:极大似然
* 参数的先验模型

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: