您的位置：首页 > 理论基础 > 计算机网络

斯坦福NLP课程 | 第4讲 - 神经网络反向传播与计算图

2022-05-04 00:10 3319 查看

收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

引言

内容覆盖

① 简单神经网络的梯度矩阵与建议
② 计算图与反向传播
③ 神经网络训练实用知识技能正则化（用于环节过拟合）
向量化
非线性表达能力
参数初始化
优化算法
学习率策略

1.简单神经网络的梯度矩阵与建议

1.1 权重矩阵的导数

让我们仔细看看计算 \frac{\partial s}{\partial W} 再次使用链式法则

\frac{\partial s}{\partial W}=\frac{\partial s}{\partial h} \frac{\partial h}{\partial z} \frac{\partial z}{\partial W} \begin{aligned} s &= u^T h \\ h &= f(z) \\ z &= Wx+b \end{aligned}

1.2 反向传播梯度求导

这个函数(从上次开始)

\frac{\partial s}{\partial W}=\delta \frac{\partial z}{\partial W}=\delta \frac{\partial}{\partial W} Wx+b

考虑单个权重 W_{ij} 的导数
W_{ij} 只对 z_i 有贡献例如 W_{23} 只对 z_2 有贡献，对 z_1 没有贡献

\begin{aligned} \frac{\partial z_{i}}{\partial W_{i j}} &=\frac{\partial}{\partial W_{i j}} W_{i \cdot} x+b_{i} \\ &=\frac{\partial}{\partial W_{i j}} \sum_{k=1}^{d} W_{i k} x_{k}=x_{j} \end{aligned}

对于单个 W_{ij} 的导数：

\frac{\partial s}{\partial W_{i j}} = \delta_i x_j

我们想要整个 W 的梯度，但是每种情况都是一样的
解决方案：外积

\begin{aligned} \frac{\partial s}{\partial {W}}&=\delta ^{T} x^{T}\\ [n \times m] &= [n \times 1][1 \times m] \end{aligned}

1.3 梯度求导：技巧与建议

技巧1：仔细定义变量并关注它们的维度！
技巧2：链式法则！如果 y = f(u) , u = g(x)，即 y = f(g(x)) 则

\frac{\partial {y}}{\partial {x}}=\frac{\partial {y}}{\partial {u}} \frac{\partial {u}}{\partial {x}}

提示3：模型的最上面的softmax部分：首先考虑当 c = y (正确的类)的导数 f_c，然后再考虑当 c \neq y (所有不正确的类)的导数 f_c
技巧4：如果你被矩阵微积分搞糊涂了，请计算逐个元素的偏导数！
技巧5：使用形状约定。注意：到达隐藏层的错误消息 \delta 具有与该隐藏层相同的维度

1.4 为窗口模型推导梯度

到达并更新单词向量的梯度可以简单地分解为每个单词向量的梯度
令 \nabla_{x} J=W^{T} \delta=\delta_{x_{w i n d o w}}
X_{window}=[X_{museums} \quad X_{in} \quad X_{Paris} \quad X_{are} \quad X_{ amazing}]
则得到

\begin{aligned} \delta_{window}=\left[\begin{array}{c}{\nabla_{x_{\text {museums}}}} \\ {\nabla_{x_{i n}}} \\ {\nabla_{x_{\text {Pare}}}} \\ {\nabla_{x_{\text {are}}}} \\ {\nabla_{x_{\text {amazing}}}}\end{array}\right] \in \mathbb{R}^{5 d} \end{aligned}

我们将根据梯度逐个更新对应的词向量矩阵中的词向量，所以实际上是对词向量矩阵的更新是非常稀疏的

1.5 在窗口模型中更新单词梯度

当我们将梯度更新到词向量中时，这将更新单词向量，使它们(理论上)在确定命名实体时更有帮助。
例如，模型可以了解到，当看到 x_{in} 是中心词之前的单词时，指示中心词是一个 Location

1.6 重新训练词向量时的陷阱

背景：我们正在训练一个单词电影评论情绪的逻辑回归分类模型。

在训练数据中，我们有“TV”和“telly”
在测试数据中我们有“television””
预训练的单词向量有三个相似之处：

问题：当我们更新向量时会发生什么
回答：
那些在训练数据中出现的单词会四处移动 “TV”和“telly”

没有包含在训练数据中的词汇保持原样

“television”

1.7 关于再训练的建议

问题：应该使用可用的“预训练”词向量吗？
回答：
几乎总是「应该用」
他们接受了大量的数据训练，所以他们会知道训练数据中没有的单词，也会知道更多关于训练数据中的单词
拥有上亿的数据语料吗？那可以随机初始化开始训练

问题：我应该更新(“fine tune”)我自己的单词向量吗？

回答：

如果您有一个大型数据集，那么基于任务训练更新词向量（ train = update = fine-tune ）效果会更好

2.计算图与反向传播

2.1 反向传播

我们几乎已经向你们展示了反向传播
求导并使用(广义)链式法则

另一个技巧：在计算较低层的导数时，我们重用对较深层计算的导数，以减小计算量

2.2 计算图和反向传播

我们把神经网络方程表示成一个图源节点：输入
内部节点：操作
边传递操作的结果

\begin{aligned} s &= u^Th \\ h &= f(z) \\ z &= Wx+b \\ x & \quad (input) \end{aligned}

Forward Propagation：前向传播 Back Propagation：沿着边回传梯度

2.3 反向传播：单神经元视角

节点接收“上游梯度”
目标是传递正确的“下游梯度”

每个节点都有局部梯度 local gradient

它输出的梯度是与它的输入有关

每个节点都有局部梯度 local gradient

n它输出的梯度是与它的输入有关

每个节点都有局部梯度 local gradient

它输出的梯度是与它的输入有关

有多个输入的节点呢？z=Wx
多个输入 → 多个局部梯度

2.4 反向传播计算图示例

2.5 求和形态的梯度计算

上图中的 \frac{\partial f}{\partial y} 的梯度的计算

\begin{aligned} a &= x + y \\ b &= max(y,z)\\ f &= ab \end{aligned} \frac{\partial f}{\partial y} = \frac{\partial f}{\partial a}\frac{\partial a}{\partial y} + \frac{\partial f}{\partial b}\frac{\partial b}{\partial y}