您的位置:首页 > 理论基础 > 计算机网络

AI06:批量归一化和残差网络;凸优化;梯度下降

2020-03-05 19:48 369 查看

批量归一化和残差网络

归一化

对输入的标准化(浅层模型)
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化(深度模型)
利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化

位置:全连接层中的仿射变换和激活函数之间。

2.对卷积层做批量归⼀化

位置:卷积计算之后、应⽤激活函数之前。

3.预测时的批量归⼀化

训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。

残差网络(ResNet)

深度学习的问题:深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,准确率也变得更差。

残差块(Residual Block)

恒等映射:
左边:f(x)=x
右边:f(x)-x=0 (易于捕捉恒等映射的细微波动)

在残差块中,输⼊可通过跨层的数据线路更快 地向前传播。

ResNet模型

卷积(64,7x7,3)
批量一体化
最大池化(3x3,2)

残差块x4 (通过步幅为2的残差块在每个模块之间减小高和宽)

全局平均池化

全连接

稠密连接网络(DenseNet)

主要构建模块:

稠密块(dense block): 定义了输入和输出是如何连结的。
过渡层(transition layer):用来控制通道数,使之不过大。

凸优化

优化与深度学习

优化与估计

尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。

优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)

优化在深度学习中的挑战
  • 鞍点
  • 梯度消失
  • 局部最小值
鞍点


梯度消失

局部最小值

凸性 (Convexity)

函数

λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)

性质
  • 无局部极小值
  • 与凸集的关系
    对于凸函数 f(x) ,定义集合 Sb:={x|x∈X and f(x)≤b} ,则集合 Sb 为凸集
    证明:对于点 x,x′∈Sb , 有 f(λx+(1−λ)x′)≤λf(x)+(1−λ)f(x′)≤b , 故 λx+(1−λ)x′∈Sb
  • 二阶条件
    f′′(x)≥0⟺f(x) 是凸函数

梯度下降

梯度下降

一维梯度下降

沿梯度反方向移动自变量可以减小函数值

多维梯度下降


eg:f(x)=x21+2x22

自适应方法
牛顿法

在 x+ϵ 处泰勒展开:

最小值点处满足: ∇f(x)=0 , 即我们希望 ∇f(x+ϵ)=0 , 对上式关于 ϵ 求导,忽略高阶无穷小,有:∇f(x)+Hfϵ=0∇f(x)+Hfϵ=0∇f(x)+Hfϵ=0 and hence ϵ=−H−1f∇f(x)ϵ=−H−1f∇f(x)ϵ=−H−1f∇f(x)

随机梯度下降

动态学习率

  • 点赞
  • 收藏
  • 分享
  • 文章举报
fassbloom 发布了6 篇原创文章 · 获赞 0 · 访问量 103 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐