为什么梯度下降法对于非线性可分数据有效
2016-11-09 19:37
260 查看
前言
晚上逛微博看到的,顺便拿过来翻译一下,做做笔记国际惯例,来个原文链接:
原文地址:Why is gradient descent robust to non-linearly separable data?
PDF拷贝:http://download.csdn.net/detail/zb1165048017/9678128
译文
声明:梯度下降法本身对于非线性可分数据是不具健壮性的。但是使用了合适的非线性激活函数以后便可以了。原因在于核函数的技巧。在核函数方法中,我们对数据做一个非线性变换,因为结果数据是线性可分的。如图所示,对于蓝色和红色点的分类任务,它们不是线性可分的。但是如果我们使用第三个变量(z=x²+y²)以后会如何呢?我们可以在蓝色和红色点之间画一个平面,分离这两类点。这恰恰就是神经网络做的事情。
神经网络学习可以被看成两部分的处理,它们学习的是数据的一种非线性变换,以及基于这种变换的数据分类。考虑只有一层的神经网络,网络输出(忽略偏置项)是Y=Wφ(Vx),其中φ是非线性函数。目前神经网络所需做的事情就是将非线性变换通过φ(Vx)施加于x,然后再转换过的数据上执行现行分类任务。因此通过梯度下降算法学习是两个部分的过程。第一部分,学习最优化核或者函数(通过V);第二部分使用线性方法分类变换过的数据。这在Andrej Karpathy的主页中也阐释过。这里有一个链接可视化一个模型,去观察神经网络是如何应用核方法以及实施随后的分类任务,点这里就是链接。
下图展示了网站中神经网络应用核方法其中的一张:
相关文章推荐
- 为什么梯度下降是有效的?
- 为什么一些机器学习模型需要对数据进行归一化?——1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度
- Effective C# 原则8:确保0对于值类型数据是有效的
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- 问:当前计算机系统一般会采用层次结构存储数据,请介绍下典型计算机存储系统一般分为哪几个层次,为什么采用分层存储数据能有效提高程序的执行效率?
- 为什么牛顿法比梯度下降法法更快收敛
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- 【数据极客】Week3_梯度下降_卷积神经网络CNN_LeNet5实现
- Python数据分析与机器学习-梯度下降策略
- 非线性优化之牛顿(梯度)下降法、高斯牛顿法、LM下降法
- 最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?
- 为什么梯度下降慢而用随机梯度下降
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- 老白聊数据-为什么你的营销总是没有效?
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- Effective C# 原则8:确保0对于值类型数据是有效的(翻译)
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- EffectiveC#8--确保0对于值类型数据是有效的(初始化问题)
- 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?
- 梯度下降和随机梯度下降为什么能下降?