您的位置:首页 > 其它

机器学习——SVM算法原理(1)

2017-03-29 20:02 134 查看

(1)线性可分支持向量机与硬间隔最大化

考虑一个二分类问题,假设输入空间与特征空间为两个不同的空间,输入空间为欧式空间或离散集合,特征空间为欧式空间或希伯特空间。线性支持向量机假设这两个空间的元素一一对应,并将输入空间的输入映射为特征空间中的特征向量,而非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量。
假设给定一个特征空间上的训练数据集
T={(x1,y1),(x2,y2),...,(xn,yn)}
(训练数据集中,xi是特征向量,yi表示xi属于的类标记,取+1和-1,并且我们还假设训练数据集是线性可分的)
学习目标:
在特征空间中找到一个分离超平面:w·x+b=0 ,把特征空间分为两个部分,一部分是+1类,另一部分是-1类。
学习策略:
在感知机训练中对于相同的学习目标,我们采用误分类最小的策略,因此有无穷多解,但在线性可分支持向量机中,采用间隔最大为目标求得最优的分离超平面。
模型表示:
对于给定的训练数据集,最优的分离超平面为:
 w*·x+b*=0
分类决策函数:
f(x) = sign(w*·x + b*)
模型表示:



1.间隔与间隔最大化

1.1函数间隔定义:

对于给定的训练数据集T和超平面(w,b),定义超平面关于样本点(xi,yi)的函数间隔为:


(1)
定义超平面关于训练数据集的函数间隔为:超平面关于样本集T的所有样本点(xi,yi)的函数间隔之最小值,即:


(2)

1.2几何间隔定义:

由于成比例的改变w和b会使函数间隔增大,而超平面不变,所以我们通过规范化w:令||w||=1,使得间隔确定,这时的间隔为几何间隔:


(3)

同样,我们定义超平面关于训练数据集的几何间隔为:超平面关于样本集T的所有样本点(xi,yi)的几何间隔之最小值,即:


(4)

1.3函数间隔与几何间隔的关系:

由上述推导可知,两者的关系为:


(5)

2.间隔最大化:

支持向量机学习的基本思想就是找到几何间隔最大的超平面把训练数据数据正确划分。对于线性可分数据,线性可分分离超平面有无穷多个,但几何间隔最大的分离超平面是唯一的,这里的间隔最大化又称为:硬间隔最大化

2.1最大间隔分离超平面模型:

求解几何间隔最大的分离超平面,可以表示为下面的约束优化问题:


(6)
(上述优化问题的目标函数是:寻找关于训练数据最大的几何间隔;约束条件:所有训练数据的几何间隔都不小于γ)
根据上面(5)的间隔关系,我们得到:


(7)

由上述(7)的约束优化问题我们可以看出,

的取值不会影响优化问题的求解,因此我们取

=
1,并且可以知道最大化

和最大化

是等价的,因此,我们就得到了线性可分支持向量机学习的最优化问题:


(8)
这是一个凸二次规划问题,我们可以采用拉格朗日对偶问题进行求解。

2.2.线性可分支持向量机学习算法——最大间隔法



3.线性可分支持向量机的优化问题求解

3.1拉格朗日对偶性





3.2对偶算法求解线性可分支持向量机的最优化问题

我们利用原优化问题的对偶形式求解,首先构建原优化问题的拉格朗日函数:


(9)

(其中,α=(α1,α2,α3,...αN)T 为拉格朗日乘子向量)
根据拉格朗日对偶性,原始问题的对偶问题是一个极大极小问题:


(10)
针对(10)的优化问题,我们采用先求L(w,b,α)对w,b的极小,再求α的极大。




(10)

上式(10)即为线性可分支持向量机优化问题的对偶形式,假设存在(10)式优化问题的解为:α*,那么根据拉格朗日对偶性定理,可以得到原问题的最优解为:



3.3线性可分支持向量机对偶学习算法





4.总结

线性可分支持向量机算法通过计算最大间隔找到最优的划分线性可分数据的超平面。在超平面(w,b)的求解上,首先介绍了直接求解最大间隔(通过求解超平面系数向量w,b)的算法,然后介绍了该优化问题的对偶问题(通过拉格朗日函数对偶性),把求解两个向量变量(w,b)的优化问题简化为求解一个拉格朗日乘子向量(α)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: