SVM——(七)SMO(序列最小最优算法)
2017-11-26 15:30
239 查看
在说SMO (Sequential minimal optimization)之前,先介绍一种与之类似的算法,坐标上升(下降)算法.
1.Coordinate ascent
所谓坐标上升(下降)指的是同一个算法,只是若实际问题是求极大值则是上升,反之为下降。我们知道梯度下降算法在每次迭代过程中都是沿着梯度的(反)方向进行的;而坐标下降算法则是在每次迭代中分步沿着你n个(n为特征维度)方向进行的。下图是2维情况下,两者求解的示意图。
具体的就是每次只把第i个变量看做是未知数,其他看做常数进行求导,令为0解出第i个变量。求出所有参数的表达式后,利用旧的参数一次更新得到每一个新的参数。也就是:梯度下降强调所有参数同时(simultaneously)更新,而坐标下降则是每个参数分别更新
下面是一个两者的一个代码片段:
源码地址
2.SMO算法
如下我们要之前推导出来要优化的目标函数:
maxαs.t.W(α)=∑i=1mαi−12∑i,j=1my(i)y(j)αiαj⟨x(i),x(j)⟩0≤αi≤C,i=1,...,m∑i=1mαiy(i)=0(2.1)
照着上面的想法,我们是否也能将同样的思路用在此处呢?答案是否定的,因为此处多了一个约束条件。
例如,我们将α1看做是未知量,其它视为常量,那么由约束条件我们可以得到:
α1y(1)=−∑i=1mαiy(i)两边同乘以y(1)α1=−y(1)∑i=2mαiy(i)(2.2)
由此我们可以看出α1不可能是一个变量,因为它是右边一串常数的和;也就是说有了(2.1)这个约束条件,就不可能将其中一个αi视为变量,其余的视为常量。
那怎么办呢?既然一个不行,那就同时将两个视为变量,其余的视为常量。不失一般性,我们任选两个,记为α1,α2。由(2.1)我们同样可以得到(2.2)且还有:
α1y(1)+α2y(2)=−∑i=3mαiy(i)=ζ(2.3)
此时我们再来看(2.3),虽说α1y(1)+α2y(2)依旧等于一个常量,但是α1,α2确是可以自由变化的(注:两者事实上只有一个事变量,因为一个确定了,另一个也就确定了)。
由(2.3)我们可以画出下面这条直线:
由此我们可以得到:
根据约束条件0≤αi≤C知,可行解位于‘盒子’[0,C],[C,0]中;
根据约束条件(2.3)知,可行解同时又位于直线α1y(1)+α2y(2)=ζ上;
由2,3知,最优解位于盒子中的线段上;
此图为y(1),y(2)异号时的情况;
假设(2.1)的初始可行解为αold1,αold2,最优解为αnew1,αnew2,并且假设在沿着约束(直线)方向未经剪切时α2的最优解为αnew,unc2则有:
L≤αnew2≤H(2.4)
且当y(1)≠y(2)(即异号)时
L=max(0,αold2−αold1),H=min(C,C+αold2−αold1)(2.5)
当y(1)=y(2)时
L=max(0,αold2+αold1−C),H=min(C,αold2+αold1)(2.6)
举例:
⟹⟹⟹(αold1,αold2)=(4,7)L=max0,7+4−8)=3;H=min(8,7+4)=8;3≤αnew2≤8
由(2.3)知:
α1=(ζ−α2y(2))y(1)(2.7)
因此,
W(α)=W(α1,α2,...,αm)=W((ζ−α2y(2))y(1),α2,...αm)(2.8)
由于我们是将α3,...αm视为常数的,所以此时W(α)实质上是一个仅关于α2的二次函数W(α2)。为什么是二次?由(2.1)可知,其最高次数仅为2。所以W(α2)又可以表示成a(α2)2+bα2+c的形式。如果我们暂时先忽略条件(2.4),然后令其导数为0,则很容易求得α2未剪切的解αnew,unc2。
且剪切后的解为:
αnew2⎧⎩⎨⎪⎪⎪⎪H,αnew,unc2,L,ifαnew,unc2>HifL≤αnew,unc2≤Hifαnew,unc2<L
最后,在计算得到αnew2之后,就可以利用公式(2.3)求得αnew1
以上都是根据cs229-notes3.pdf整理的笔记,琢磨了很久还是没有彻底将SMO算法弄明白,姑且先放着,等到后续实在要用到再探究,因为在SVM这章着实停留得太久了,前前后后一个月。我相信一口气是吃不成一个胖子的,循序渐进。
后面我就直接通过scikit-learn来介绍一下里面SVM的主要用法,见Scikit-learn——SVM
SVM——(七)SMO(序列最小最优算法)
SVM——(六)软间隔目标函数求解
SVM——(五)线性不可分之核函数
SVM——(四)目标函数求解
SVM——(三)对偶性和KKT条件(Lagrange duality and KKT condition)
SVM——(二)线性可分之目标函数推导方法2
SVM——(一)线性可分之目标函数推导方法1
参考
《统计学习方法》 李航
cs229-notes3.pdf
smo.pdf
1.Coordinate ascent
所谓坐标上升(下降)指的是同一个算法,只是若实际问题是求极大值则是上升,反之为下降。我们知道梯度下降算法在每次迭代过程中都是沿着梯度的(反)方向进行的;而坐标下降算法则是在每次迭代中分步沿着你n个(n为特征维度)方向进行的。下图是2维情况下,两者求解的示意图。
具体的就是每次只把第i个变量看做是未知数,其他看做常数进行求导,令为0解出第i个变量。求出所有参数的表达式后,利用旧的参数一次更新得到每一个新的参数。也就是:梯度下降强调所有参数同时(simultaneously)更新,而坐标下降则是每个参数分别更新
下面是一个两者的一个代码片段:
% gradient descent for i = 1:200 grad(1)=4*x1-2*x2-4; grad(2)=-2*x1+10*x2-24;% 都是用旧的参数得到梯度 x = x-alpha*grad;% 同时更新得到新的参数 f1 = f(x(1),x(2)); end % coordinate descent for i = 200 x1=1+0.5*x2; x2=2.4+0.2*x1;% 用上一步更新的参数,来更新另外一个参数,未同时 f2 = f(x1,x2); end
源码地址
2.SMO算法
如下我们要之前推导出来要优化的目标函数:
maxαs.t.W(α)=∑i=1mαi−12∑i,j=1my(i)y(j)αiαj⟨x(i),x(j)⟩0≤αi≤C,i=1,...,m∑i=1mαiy(i)=0(2.1)
照着上面的想法,我们是否也能将同样的思路用在此处呢?答案是否定的,因为此处多了一个约束条件。
例如,我们将α1看做是未知量,其它视为常量,那么由约束条件我们可以得到:
α1y(1)=−∑i=1mαiy(i)两边同乘以y(1)α1=−y(1)∑i=2mαiy(i)(2.2)
由此我们可以看出α1不可能是一个变量,因为它是右边一串常数的和;也就是说有了(2.1)这个约束条件,就不可能将其中一个αi视为变量,其余的视为常量。
那怎么办呢?既然一个不行,那就同时将两个视为变量,其余的视为常量。不失一般性,我们任选两个,记为α1,α2。由(2.1)我们同样可以得到(2.2)且还有:
α1y(1)+α2y(2)=−∑i=3mαiy(i)=ζ(2.3)
此时我们再来看(2.3),虽说α1y(1)+α2y(2)依旧等于一个常量,但是α1,α2确是可以自由变化的(注:两者事实上只有一个事变量,因为一个确定了,另一个也就确定了)。
由(2.3)我们可以画出下面这条直线:
由此我们可以得到:
根据约束条件0≤αi≤C知,可行解位于‘盒子’[0,C],[C,0]中;
根据约束条件(2.3)知,可行解同时又位于直线α1y(1)+α2y(2)=ζ上;
由2,3知,最优解位于盒子中的线段上;
此图为y(1),y(2)异号时的情况;
假设(2.1)的初始可行解为αold1,αold2,最优解为αnew1,αnew2,并且假设在沿着约束(直线)方向未经剪切时α2的最优解为αnew,unc2则有:
L≤αnew2≤H(2.4)
且当y(1)≠y(2)(即异号)时
L=max(0,αold2−αold1),H=min(C,C+αold2−αold1)(2.5)
当y(1)=y(2)时
L=max(0,αold2+αold1−C),H=min(C,αold2+αold1)(2.6)
举例:
⟹⟹⟹(αold1,αold2)=(4,7)L=max0,7+4−8)=3;H=min(8,7+4)=8;3≤αnew2≤8
由(2.3)知:
α1=(ζ−α2y(2))y(1)(2.7)
因此,
W(α)=W(α1,α2,...,αm)=W((ζ−α2y(2))y(1),α2,...αm)(2.8)
由于我们是将α3,...αm视为常数的,所以此时W(α)实质上是一个仅关于α2的二次函数W(α2)。为什么是二次?由(2.1)可知,其最高次数仅为2。所以W(α2)又可以表示成a(α2)2+bα2+c的形式。如果我们暂时先忽略条件(2.4),然后令其导数为0,则很容易求得α2未剪切的解αnew,unc2。
且剪切后的解为:
αnew2⎧⎩⎨⎪⎪⎪⎪H,αnew,unc2,L,ifαnew,unc2>HifL≤αnew,unc2≤Hifαnew,unc2<L
最后,在计算得到αnew2之后,就可以利用公式(2.3)求得αnew1
以上都是根据cs229-notes3.pdf整理的笔记,琢磨了很久还是没有彻底将SMO算法弄明白,姑且先放着,等到后续实在要用到再探究,因为在SVM这章着实停留得太久了,前前后后一个月。我相信一口气是吃不成一个胖子的,循序渐进。
后面我就直接通过scikit-learn来介绍一下里面SVM的主要用法,见Scikit-learn——SVM
SVM——(七)SMO(序列最小最优算法)
SVM——(六)软间隔目标函数求解
SVM——(五)线性不可分之核函数
SVM——(四)目标函数求解
SVM——(三)对偶性和KKT条件(Lagrange duality and KKT condition)
SVM——(二)线性可分之目标函数推导方法2
SVM——(一)线性可分之目标函数推导方法1
参考
《统计学习方法》 李航
cs229-notes3.pdf
smo.pdf
相关文章推荐
- 【机器学习】支持向量机(SVM)的优化算法——序列最小优化算法(SMO)概述
- SVM-支持向量机学习(7):求解SVM算法-SMO-序列最小最优化
- SVM-7-SMO(序列最小优化算法)
- 砥志研思SVM(四) 序列最小最优化算法(SMO)论文翻译
- 机器学习-python通过序列最小优化算法(SMO)方法编写支持向量机(SVM)
- SVM中的训练算法:序列最小最优化算法SMO的读书笔记
- 机器学习(七、八):SVM(支持向量机)【最优间隔分类、顺序最小优化算法】
- 支持向量机SVM----简化版序列最小优化SMO(Sequential Minimal Optimation)
- 序列最小优化算法(SMO)
- 序列最小最优化算法 SMO
- 统计学习方法第七章的序列最小最优化算法SMO代码实践
- 【机器学习】支持向量机(二)——序列最小最优化(SMO)算法
- 支持向量机SVM----完整版序列最小优化SMO(Sequential Minimal Optimation)
- 支持向量机—SMO论文详解(序列最小最优化算法)
- svm的smo算法
- CCF 201412-4 最优灌溉(最小生成树,prime算法,kurskal算法)
- 设计一个最优算法来查找n个元素数组中的最大值和最小值
- 同时寻找最大数和最小数的最优算法以及寻找最大的两个数所需的最少比较次数
- 同时寻找最大数和最小数的最优算法
- 支持向量机(Support Vector Machine)-----SVM之SMO算法(转)