您的位置:首页 > 其它

机器学习中的正则化

2016-03-15 15:34 155 查看
L0 L1 L2 核范数
规则化:从贝叶斯的角度看,规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现,是在经验风险上加一个正则化项或惩罚项



第一项:Loss 第二项:规则化项
loss :square loss 最小二乘
Hinge Loss SVM
exp-Loss: Boosting
log Loss: LR
规则化项:模型越复杂,规则化值就越大 常用的规则化项:L0,L1,L2,迹范数,Frobenius范数,核范数
一、L0与L1范数
L0范数是指向量中非0的元素的个数。
L0和L1都可以实现稀疏矩阵。而L0范数很难优化求解(NP难),L1是L0范数的最优凸近似,要更容易优化
L1的好处:1)特征选择,2)可解释性
L1:lasso L1相当于加了一个拉普拉斯先验概率
二、L2范数(ridge) L2相当于加了一个先验的高斯分布 都可以防止过拟合
L2范数可以实现对模型空间的限制,从而在一定程度上避免了过拟合,L2与L1不同的地方是让模型的参数接近于0而不是等于0,越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象
L2的好处:1)L2防止过拟合,提升模型的泛化能力
2)L2范数更适合优化计算 毕竟L2求导方便一点

L1和L2的差别:
1)下降速度:



2)模型空间的限制:



一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。

三、核范数
核范数||w||*是指矩阵奇异值的和。核范数的主要作用是低秩,如果矩阵有很多的冗余信息,就可以投影到更低维的线性子空间中,可以用几个向量就完全表达,当数据缺失信息时,可以进行恢复,也可以对数据进行特征提取。rank(w)的凸近似就是核范数||w||。
用处:
1)矩阵填充:



低秩矩阵重构问题
2)鲁棒PCA(Robust PCA):
与经典PCA问题一样,鲁棒PCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X,假如X受到随机(稀疏)噪声的影响,则X的低秩性就会破坏,使X变成满秩的。所以我们就需要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵,实际上就找到了数据的本质低维空间。那有了PCA,为什么还有这个Robust
PCA呢?Robust在哪?因为PCA假设我们的数据的噪声是高斯的,对于大的噪声或者严重的离群点,PCA会被它影响,导致无法正常工作。而Robust PCA则不存在这个假设。它只是假设它的噪声是稀疏的,而不管噪声的强弱如何。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: