您的位置:首页 > 其它

如何优雅的ML(五) 支持向量机

2014-07-16 16:02 183 查看
关于支持向量机/article/1350687.html 这篇博客已经说得很明白了。

支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。

    通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。


SVM 应该是现成的最好用的分类器了。在数据上应用 SVM 分类器可以直接得到低错误率的结果。SVM 能够对训练集之外的数据点做出很好的分类决策。

优点:泛化错误率低、计算开销不大、结果易解释
缺点:对参数调节和核函数的选择敏感、原始分类器不加修改仅适用于处理二类问题
使用数据类型:数值型和标称型


在二维图中画出一条直线可以将两组数据点分开的数据称为线性可分数据。

类推到更高的维度中,如果数据是N维的,就需要一个N-1维的超平面来对数据进行分割。

分类的决策边界称为超平面。

我们希望找到离分割超平面最近的点,使它们离分割面的距离尽可能远。

把点到分割面的距离称为间隔。所以我们希望间隔尽可能的大。

支持向量就是离分割超平面最近的那些点。

要理解如何寻找最大间隔需要大量的知识,因此暂时略过细节。

当数据非线性可分时,我们要使用一种称为核函数的工具来将数据转换成易于分类器理解的形式。

我们可以将一个特征空间转换到另一个特征空间,称为从一个特征空间到另一个特征空间的映射。

核函数可以把数据从某个很难处理的形式转换为另一个较容易处理的形式。

经过空间转换之后,我们可以在高维空间中解决线性问题,等价于在低维空间中解决非线性问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: