L1 L2正则化及贝叶斯解释
2017-10-19 10:19
316 查看
1 L1正则化和L2正则化区别
L1得到的是稀疏权值,可以用于特征选择,假设参数服从Laplace分布(贝叶斯角度理解)L2得到的是平滑权值,因为所有权值都趋于最小,假设参数服从Gauss分布,(并趋于一致,因为一致时平方和,最小)
2 L1正则化稀疏解理解
2.1问题转化
2.2图形化解释
2.3其他理解
2.4 L1求导
求导方法:近端梯度下降参考:
[1]机器学习中的范数规则化之(一)L0、L1与L2范数
http://blog.csdn.net/zouxy09/article/details/24971995/
[2]l1相比于
l2为什么容易获得稀疏解?
https://www.zhihu.com/question/37096933?sort=created
3贝叶斯角度理解正则化
http://www.voidcn.com/blog/shenxiaoming77/article/p-5011766.htmlhttp://blog.csdn.net/zhuxiaodong030/article/details/54408786
3.1先验知识
正则化是对经验风险函数进行约束,可以理解引入先验知识,具有引导作用,使优化过程中倾向于选择满足约束条件梯度减小的方向进行;不理解:正则化解决了逆问题的不适定性,产生的解存在、唯一、同时依赖于数据,噪声对不适定性影响弱,解不会过拟合,如果先验合适,其解倾向于符合真解,即使训练集中彼此间不相关样本很少
L1 L2正则化可以理解为模型导入了先验分布,对模型进行惩罚,L1正则化引Laplace分布,L2正则化引入Gauss分布
3.2贝叶斯理解
正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率;
对贝叶斯后验概率,取对,可以转化为:损失函数+正则化项
3.3概率论角度解释平滑与稀疏
高斯分布,对大的w,概率较低,而在接近0的时候,概率变换缓慢,所以对于小概率容忍较好,最终解的w趋于0附近拉普拉斯分布,只有很小的w,才能得到较大的概率,偏向于0,更加稀疏
分析时要考虑先验,当0较多时,模型偏于简单,先验会较低
3.4极大似然与后验估计
http://www.cnblogs.com/little-YTMM/p/5399532.html最大后验估计可以根据经验数据,对难以观察的量进行估计,如参数估计,与最大似然不同的是,最大后验融入了估计量的先验分布,即事先知道估计量满足的分布模型,因此最大后验估计可以看作规则化的最大似然估计;
L1 L2正则化,都可以转化为:极大似然
* 参数的先验模型
相关文章推荐
- L1正则化和L2正则化的解释
- 【机器学习】贝叶斯角度看L1,L2正则化
- 初学者如何学习机器学习中的L1和L2正则化
- L1、L2正则化
- 机器学习中正则化方法简介:L1和L2正则化(regularization)、数据集扩增、dropout
- L1 L2范式的详解以及Scikit-learn上基于L1 L2范式正则化的实例
- 机器学习损失函数、L1-L2正则化的前世今生
- L1,L2正则化
- 正则化方法:L1和L2 regularization、数据集扩增、dropout
- 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
- 机器学习:L1与L2正则化项
- [置顶] 【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge
- 正则化方法:L1和L2 regularization、数据集扩增、dropout
- 正则化方法:L1和L2 regularization、数据集扩增、dropout
- 正则化方法:L1和L2 regularization、数据集扩增、dropout
- [置顶] 机器学习损失函数、L1-L2正则化的前世今生
- 过拟合以及正则化(L0,L1,L2范数)
- 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
- Eeeplearning-正则化方法--L1和L2 regularization、数据集扩增、dropout
- 正则化方法:L1和L2 regularization、数据集扩增、dropout