您的位置:首页 > 其它

机器学习----支持向量机(软间隔与正则化)

2017-04-06 19:23 190 查看

Soft Margin

前面的假设一直都是线性可分,可是如果对所有样本不能线性可分(比如有noisy)怎么办?或者过拟合怎么办?



缓解该问题的一个方法就是允许支持向量机在一些样本上出错,为此引入软间隔(soft margin)这个概念。即允许在一些样本上出错,可以有些样本不满足:

yi(θTxi+b)≥1

所以优化目标写成:

minθ,b12||θ||2+C∑i=1pℓ0/1(yi(θTxi+b)−1)   ✿

其中C>0是个常数,ℓ0/1是“0/1损失函数”。ℓ0/1(z)在z小于0时候为1,其余为0.

然而ℓ0/1非凸,非连续,数学性质不好,常用其他函数替代。如

hinge损失:ℓhinge(z)=max(0,1−z)

指数损失(exponential loss):ℓexp(z)=exp(−z)

对率损失(logistic loss):ℓlog(1+exp−z)



若采用hinge loss,则✿变成:

minθ,b12||θ||2+C∑i=1pmax(0,1−(yi(θTxi+b))

引入“松弛变量”ξ≥0,重写成:

minθ,b,ξi12||θ||2+C∑1pξis.t. yi(θTxi+b)≥1−ξiξi≥0, i=1,2,...,p

这就是常用的“软间隔支持向量机”。求解过程略。

Regularization

我们把✿写成一般的形式:

minf Ω(f)+C∑i=1pℓ(f(xi),yi)

其实这是机器学习的一个通式,整个统计机器学习都是在玩这个。ℓ是logistic loss就是logistic回归,ℓ是hinge loss就是SVM。我们把∑pi=1ℓ(f(xi),yi)叫做“经验风险”(empirical risk),用于描述模型与训练数据的切合程度。

Ω(f)叫做“结构风险”(structural risk),用与描述模型f的某些性质,一般成为正则化项,表述我们希望获得具有何种性质的模型(例如希望获得复杂度较小的模型),这为引入领域知识和用户意图提供了途径。C称为正则化常数,平衡结构风险和经验风险。Lp 范数是常用的正则化项,其中L2范数倾向与θ的分量取值尽量均衡,即非零分量个数尽量稠密,而L0和L1范数则倾向于θ的分量尽量稀疏,即非零个数尽量少。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐