DL-损失函数与优化
2017-12-17 15:39
120 查看
上周对于NN的框架有了整体的把握,这周看了一些网络中的核心问题。中间穿插的看了一些视频,主要还是啃DL这本书,把第七章和第八章看完了(跳过了dropout,个人觉得这个对于现阶段的我有点细节)。第七章是正则化问题,着重理解了一些其中证明的过程;第八章是优化问题,书上的讲法偏顶层设计。以后就是对每个网络的研读了。
一种是参数范数惩罚,为了分析权重衰减的一些变化,假设了目标w*,并在w* 附近做了二次近似。
正则化对于最优w的选择内张图一开始我还没看太懂,暂时理解成两个点在牵扯,在下降不明显的位置更容易被正则化衰减掉。L1范数比L2更容易产生稀疏的解。稀疏的特性使得模型不容易过拟合,稀疏编码在网络优化中有着重要地位。作为约束的范数惩罚可以通过构造一个拉格朗日函数来最小化约束方程。跟之前理解不同的地方在于,正则化可以解决欠定问题。
数据集与噪声
之前有带过对于数据集的讨论,他这里强调的是数据规模,一个是对于有限数据的“造假”,还有一个是输入中加入随机噪声可以使得网络更加健壮,随后介绍了标签平滑的方法。后面优化问题中也提到了数据集的问题,数据集的增加对于梯度下降的影响是n^1/2的关系,回报是低于线性的,这是针对冗余数据集,与上面并不矛盾。
提前终止
这个也是我没有考虑过的,对于循环提前终止是可以数学解释的。他这里有个转化的公式没有写清楚多余的写一下:
为什么都用一阶导数而不用二阶,二阶对于数据量的要求太大也就牺牲了很多效率。里面很多讨论用到了梯度范数。总的来说梯度的优化的问题是速度(矢量)和局部极小的问题。局部极小的问题又衍生出鞍点、悬崖和梯度爆炸、长期依赖等一系列的问题,其中也有很多问题现在没有解决,作者建议找到良好的初始点或者对于特殊问题特殊解决而不是寻找一个表现好的非局部范围更新的算法。
部分方法
SGD,动量+SGD,动量的这个方法让我想到了自控原理中的积分,最后黏性阻力的缓冲有种类似对于PID积分的改良,这里使用了梯度的历史信息,减小了随机梯度下降的振荡(大自控万岁)。
正则化
范数惩罚一种是参数范数惩罚,为了分析权重衰减的一些变化,假设了目标w*,并在w* 附近做了二次近似。
正则化对于最优w的选择内张图一开始我还没看太懂,暂时理解成两个点在牵扯,在下降不明显的位置更容易被正则化衰减掉。L1范数比L2更容易产生稀疏的解。稀疏的特性使得模型不容易过拟合,稀疏编码在网络优化中有着重要地位。作为约束的范数惩罚可以通过构造一个拉格朗日函数来最小化约束方程。跟之前理解不同的地方在于,正则化可以解决欠定问题。
数据集与噪声
之前有带过对于数据集的讨论,他这里强调的是数据规模,一个是对于有限数据的“造假”,还有一个是输入中加入随机噪声可以使得网络更加健壮,随后介绍了标签平滑的方法。后面优化问题中也提到了数据集的问题,数据集的增加对于梯度下降的影响是n^1/2的关系,回报是低于线性的,这是针对冗余数据集,与上面并不矛盾。
提前终止
这个也是我没有考虑过的,对于循环提前终止是可以数学解释的。他这里有个转化的公式没有写清楚多余的写一下:
优化
梯度是核心为什么都用一阶导数而不用二阶,二阶对于数据量的要求太大也就牺牲了很多效率。里面很多讨论用到了梯度范数。总的来说梯度的优化的问题是速度(矢量)和局部极小的问题。局部极小的问题又衍生出鞍点、悬崖和梯度爆炸、长期依赖等一系列的问题,其中也有很多问题现在没有解决,作者建议找到良好的初始点或者对于特殊问题特殊解决而不是寻找一个表现好的非局部范围更新的算法。
部分方法
SGD,动量+SGD,动量的这个方法让我想到了自控原理中的积分,最后黏性阻力的缓冲有种类似对于PID积分的改良,这里使用了梯度的历史信息,减小了随机梯度下降的振荡(大自控万岁)。
部分笔记
-大致理解了一下CNN、Computational Graph(计算图)描述、以及w2v的一些基本概念。近期计划
-准备拿tf做点小事情=。=,快才思枯竭了阿西吧。相关文章推荐
- CNN中激活函数,优化器,损失函数的选择
- 深度学习笔记——TensorFlow学习笔记(二)激活函数、损失函数、优化算法和正则项
- mxnet(gluon)—— 模型、数据集、损失函数、优化子等类、接口大全
- 损失函数优化方法
- CS231n-深度学习与计算机视觉-笔记-Lecture3 损失函数和优化
- CS231N 笔记2_损失函数和优化器
- 机器学习中的优化算法、加速训练机制、损失函数、KL散度和交叉熵
- 8.2 TensorFlow实现KNN与TensorFlow中的损失函数,优化函数
- tensorflow系列1:两种方式优化损失函数
- day4_cs231n _ 损失函数与优化器
- 深度学习DL中优化方法总结
- Pytorch打怪路(一)pytorch进行CIFAR-10分类(3)定义损失函数和优化器
- 2017优化方法改进-译Optimization for DL in 2017
- CS231n Lecture 3:损失函数和优化
- 盘点机器学习中常见的损失函数和优化算法
- 【DL】几种参数优化方法的比较
- [置顶] 罗斯基白话:TensorFlow+实战系列(三)常用损失函数与参数优化
- 【机器学习】【base】 之 目标函数 损失函数 优化算法
- 顺序表查找算法及其优化
- keepalived https健康检查性能优化