机器学习----支持向量机(软间隔与正则化)
2017-04-06 19:23
190 查看
Soft Margin
前面的假设一直都是线性可分,可是如果对所有样本不能线性可分(比如有noisy)怎么办?或者过拟合怎么办?缓解该问题的一个方法就是允许支持向量机在一些样本上出错,为此引入软间隔(soft margin)这个概念。即允许在一些样本上出错,可以有些样本不满足:
yi(θTxi+b)≥1
所以优化目标写成:
minθ,b12||θ||2+C∑i=1pℓ0/1(yi(θTxi+b)−1) ✿
其中C>0是个常数,ℓ0/1是“0/1损失函数”。ℓ0/1(z)在z小于0时候为1,其余为0.
然而ℓ0/1非凸,非连续,数学性质不好,常用其他函数替代。如
hinge损失:ℓhinge(z)=max(0,1−z)
指数损失(exponential loss):ℓexp(z)=exp(−z)
对率损失(logistic loss):ℓlog(1+exp−z)
若采用hinge loss,则✿变成:
minθ,b12||θ||2+C∑i=1pmax(0,1−(yi(θTxi+b))
引入“松弛变量”ξ≥0,重写成:
minθ,b,ξi12||θ||2+C∑1pξis.t. yi(θTxi+b)≥1−ξiξi≥0, i=1,2,...,p
这就是常用的“软间隔支持向量机”。求解过程略。
Regularization
我们把✿写成一般的形式:minf Ω(f)+C∑i=1pℓ(f(xi),yi)
其实这是机器学习的一个通式,整个统计机器学习都是在玩这个。ℓ是logistic loss就是logistic回归,ℓ是hinge loss就是SVM。我们把∑pi=1ℓ(f(xi),yi)叫做“经验风险”(empirical risk),用于描述模型与训练数据的切合程度。
Ω(f)叫做“结构风险”(structural risk),用与描述模型f的某些性质,一般成为正则化项,表述我们希望获得具有何种性质的模型(例如希望获得复杂度较小的模型),这为引入领域知识和用户意图提供了途径。C称为正则化常数,平衡结构风险和经验风险。Lp 范数是常用的正则化项,其中L2范数倾向与θ的分量取值尽量均衡,即非零分量个数尽量稠密,而L0和L1范数则倾向于θ的分量尽量稀疏,即非零个数尽量少。
相关文章推荐
- 机器学习——支持向量机SVM之软间隔与正则化
- 机器学习(九):CS229ML课程笔记(5)——支持向量机(SVM),最优间隔分类,拉格朗日对偶性,坐标上升法,SMO
- 【机器学习基础】软间隔支持向量机
- 机器学习第十课:支持向量机SVM(一)线性可分(硬间隔)SVM
- 【机器学习】使用Scikit-Learn库实现支持向量机(SVM)最大化分类间隔
- 机器学习笔记八 - SVM(Support Vector Machine,支持向量机)的剩余部分。即核技法、软间隔分类器、对SVM求解的序列最小化算法以及SVM的一些应用
- 【机器学习】支持向量机(一)——最大间隔法与核函数
- 【机器学习】支持向量机(一)----实质与间隔
- 林轩田--机器学习技法--SVM笔记4--软间隔支持向量机(Soft-Margin Support Vector Machine)
- 【机器学习】支持向量机(二)----间隔最大化与原始问题
- 【机器学习-西瓜书】六、支持向量机(SVM):最大间隔;对偶问题;KKT条件
- 机器学习之支持向量机SVM Support Vector Machine (一) 线性SVM模型与软硬间隔
- 机器学习(七、八):SVM(支持向量机)【最优间隔分类、顺序最小优化算法】
- 机器学习笔记六 - 朴素贝叶斯的多项式事件模型、神经网络、支持向量机的函数间隔与几何间隔
- 机器学习笔记——支持向量机(IV)软间隔
- 机器学习(7)——支持向量机(三):线性支持向量机和软间隔最大化
- 机器学习中的正则化和范数规则化
- 机器学习笔记(XIX)支持向量机(I)基本概念
- 机器学习之正则化(Regularization)
- 机器学习系列-支持向量机