AI06:批量归一化和残差网络;凸优化;梯度下降
批量归一化和残差网络
归一化
对输入的标准化(浅层模型)
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近
批量归一化(深度模型)
利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。
1.对全连接层做批量归一化
位置:全连接层中的仿射变换和激活函数之间。
2.对卷积层做批量归⼀化
位置:卷积计算之后、应⽤激活函数之前。
3.预测时的批量归⼀化
训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。
残差网络(ResNet)
深度学习的问题:深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,准确率也变得更差。
残差块(Residual Block)
恒等映射:
左边:f(x)=x
右边:f(x)-x=0 (易于捕捉恒等映射的细微波动)
在残差块中,输⼊可通过跨层的数据线路更快 地向前传播。
ResNet模型
卷积(64,7x7,3)
批量一体化
最大池化(3x3,2)
残差块x4 (通过步幅为2的残差块在每个模块之间减小高和宽)
全局平均池化
全连接
稠密连接网络(DenseNet)
主要构建模块:
稠密块(dense block): 定义了输入和输出是如何连结的。
过渡层(transition layer):用来控制通道数,使之不过大。
凸优化
优化与深度学习
优化与估计
尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。
优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)
优化在深度学习中的挑战
- 鞍点
- 梯度消失
- 局部最小值
局部最小值
凸性 (Convexity)
函数
λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)
性质
- 无局部极小值
- 与凸集的关系
对于凸函数 f(x) ,定义集合 Sb:={x|x∈X and f(x)≤b} ,则集合 Sb 为凸集
证明:对于点 x,x′∈Sb , 有 f(λx+(1−λ)x′)≤λf(x)+(1−λ)f(x′)≤b , 故 λx+(1−λ)x′∈Sb - 二阶条件
f′′(x)≥0⟺f(x) 是凸函数
梯度下降
梯度下降
一维梯度下降
沿梯度反方向移动自变量可以减小函数值
多维梯度下降
eg:f(x)=x21+2x22
自适应方法
牛顿法在 x+ϵ 处泰勒展开:
最小值点处满足: ∇f(x)=0 , 即我们希望 ∇f(x+ϵ)=0 , 对上式关于 ϵ 求导,忽略高阶无穷小,有:∇f(x)+Hfϵ=0∇f(x)+Hfϵ=0∇f(x)+Hfϵ=0 and hence ϵ=−H−1f∇f(x)ϵ=−H−1f∇f(x)ϵ=−H−1f∇f(x)
随机梯度下降
动态学习率
- 点赞
- 收藏
- 分享
- 文章举报
- 《动手学深度学习》笔记 Task06:批量归一化和残差网络;凸优化;梯度下降
- 深度学习d6:批量归一化和残差网络;凸优化;梯度下降
- 《动手学深度学习》Task06:批量归一化和残差网络;凸优化;梯度下降
- 动手学深度学习-批量归一化和残差网络;凸优化;梯度下降
- Task06:批量归一化和残差网络;凸优化;梯度下降
- 动手学深度学习之从批量归一化和残差网络、凸优化、梯度下降
- 6.批量归一化和残差网络、凸优化与梯度下降
- 批量归一化和残差网络 凸优化和梯度下降
- Datawhale 组队学习打卡营 任务16:批量归一化和残差网络
- 《动手学深度学习》组队学习打卡Task6——批量归一化和残差网络
- 批量梯度下降,随机梯度下降SGD,小批量梯度下降,各种网络优化方法,动量、均方根传递(RMSprop)、Adam
- task6批量归一化和残差网络;凸优化;梯度下降 task9目标检测基础 图像风格迁移;图像分类案例1 task10图像分类案例2;GAN;DCGAN
- DataWhale组队打卡学习营task06-1 批量归一化和残差网络
- 批量归一化与残差网络
- 梯度下降的线性回归(批量梯度下降算法)
- 线性回归和批量梯度下降法python
- NN优化方法对比:梯度下降、随机梯度下降和批量梯度下降
- 线性回归(LinearRegression)、局部加权回归(LOWESS)、梯度下降(GD)、随机梯度下降(SGD)与批量梯度下降(MinibatchGD)代码实现与比较
- 机器学习中“批量梯度下降”公式推导
- 线性回归和批量梯度下降法python