您的位置：首页 > 其它

L1 L2正则化及贝叶斯解释

2017-10-19 10:19 316 查看

1 L1正则化和L2正则化区别

L1得到的是稀疏权值，可以用于特征选择，假设参数服从Laplace分布（贝叶斯角度理解）
L2得到的是平滑权值，因为所有权值都趋于最小，假设参数服从Gauss分布，(并趋于一致，因为一致时平方和，最小)

2 L1正则化稀疏解理解

2.1问题转化

2.2图形化解释

2.3其他理解

2.4 L1求导

求导方法：近端梯度下降

参考：
[1]机器学习中的范数规则化之（一）L0、L1与L2范数

http://blog.csdn.net/zouxy09/article/details/24971995/

[2]l1相比于
l2为什么容易获得稀疏解？

https://www.zhihu.com/question/37096933?sort=created

3贝叶斯角度理解正则化

http://www.voidcn.com/blog/shenxiaoming77/article/p-5011766.html

http://blog.csdn.net/zhuxiaodong030/article/details/54408786

3.1先验知识

正则化是对经验风险函数进行约束，可以理解引入先验知识，具有引导作用，使优化过程中倾向于选择满足约束条件梯度减小的方向进行；

不理解：正则化解决了逆问题的不适定性，产生的解存在、唯一、同时依赖于数据，噪声对不适定性影响弱，解不会过拟合，如果先验合适，其解倾向于符合真解，即使训练集中彼此间不相关样本很少

L1 L2正则化可以理解为模型导入了先验分布，对模型进行惩罚，L1正则化引Laplace分布，L2正则化引入Gauss分布

3.2贝叶斯理解

正则化项对应后验概率估计中的先验信息，损失函数对应似然函数，两者乘积得到贝叶斯最大后验概率；

对贝叶斯后验概率，取对，可以转化为：损失函数+正则化项

3.3概率论角度解释平滑与稀疏

高斯分布，对大的w，概率较低，而在接近0的时候，概率变换缓慢，所以对于小概率容忍较好，最终解的w趋于0附近
拉普拉斯分布，只有很小的w，才能得到较大的概率，偏向于0，更加稀疏
分析时要考虑先验，当0较多时，模型偏于简单，先验会较低

3.4极大似然与后验估计

http://www.cnblogs.com/little-YTMM/p/5399532.html

最大后验估计可以根据经验数据，对难以观察的量进行估计，如参数估计，与最大似然不同的是，最大后验融入了估计量的先验分布，即事先知道估计量满足的分布模型，因此最大后验估计可以看作规则化的最大似然估计；
L1 L2正则化，都可以转化为：极大似然
* 参数的先验模型

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航