您的位置：首页 > 其它

深度学习之数学基础 Updating

2017-12-14 17:51 337 查看

1. 常用函数的有用性质

1.1 logistic sigmoid函数：

σ(x)=11+e−x

logistic sigmoid函数通常用来产生Bernouli分布中的参数Φ, 因为它的范围是(0, 1), 处在Φ的有效取值范围内。sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，函数会变得很平，并且对输入的微笑改变会变得不敏感。

1.2 softplus 函数

ζ(x)=log(1+ex)

softplus函数可以用来产生正态分布的β和α参数，因为它的范围是(0, ∞). 当处理包含sigmoid函数的表达式时，它也经常出现。softplus函数名来源于它的另一个函数的平滑称软化形式，这个函数为：

x+=max(0,x)

1.2.1 应该背下来的性质

σ(x)=exex+e0=11+e−x

ddxσ(x)=σ(x)(1−σ(x))

1−σ(x)=σ(−x)

logσ(x)=−ζ(−x)

ddxζ(x)=σ(x)

∀x∈(0,1),σ−1(x)=log(x1−x)

∀x>0,ζ−1(x)=log(ex−1)

ζ(x)=∫x−∞σ(y)dy

ζ(x)−ζ(−x)=x

1.3 softmax函数

softmax 函数经常用于预测与Multinoulli分布相关联的概率，定义为：

softmax(x)i=exi∑nj=1exj

1.3.1 上溢和下溢

使用softmax函数的时候，经常需要对其进行上溢和下溢处理。当xi等于c时，如果c是非常小的负数，exp(c)就会下溢，此时分母为0. 当c是非常大的正数时，exp(c)就会上溢。

解决办法是，计算softmax(z), z=x−maxixi, 注：这里的z和x为粗体大写。softmax的函数值不会因为从输入向量减去或加上标量而改变。减去maxixi导致exp的最大参数为0，这排除了上溢的可能性。同样，分母中至少有一个值为1的项，排除了因分母下溢而导致被零除的可能性。

计算log softmax(x)，先计算softmax再把结果传给log函数，会错误地得到−∞。此时，应该使用相同的方法来稳定log softmax函数。

1.4 基于梯度的优化方法（重点）

大多数深度学习算法都涉及某种形式的优化。优化指的是改变x以最小化或最大化某个函数f(x)的任务。

通常我们以最小化f(x)指代大多数最优化问题。最大化可经由最小化算法最小化 -f(x)来实现。

我们把要最小化或最大化的函数称为目标函数 objective function 或准则 criterion。当我们对其进行最小化时，也把它称为代价函数 cost function、损失函数 loss function 或误差 error function。

通常，使用一个上标*表示最小化或者最大化函数的x值，如，x∗=argminf(x).

对于一维输入，可以求其导数。对于多维输入，需要用到偏导数 partial derivative。

梯度 gradient是相对一个向量求导的导数: f的导数是包含所有偏导数的向量，记为∇xf(x)。梯度的第i个元素是f关于xi的偏导数。在多维输入的情况下，临界点是梯度中所有元素都为零的点。

在μ⃗ 单位向量方向的方向导数 directional derivative 是函数f在μ⃗ 方向的斜率。也就是说，方向导数是函数f(x⃗ +αμ⃗ )关于α的导数，在α=0时取得。使用链式法则，我们可以看到，当α=0时，∂∂αf(x⃗ +αμ⃗ )=μT∇xf(x⃗ ).

为了最小化f，我们希望找到使f下降的最快的方向，计算方向导数：

minμ⃗ ,μ⃗ Tμ⃗ =1μ⃗ T∇x⃗ f(x⃗ )=minμ⃗ ,μ⃗ Tμ⃗ =1∥μ⃗ ∥2∥∇x⃗ f(x⃗ )∥2cosθ

其中，θ是μ⃗ 与梯度的夹角。将∥μ⃗ ∥2=1代入，并忽略与μ⃗ 无关的项，就能简化得到minμ⃗ cosθ。这在μ⃗ 与梯度方向相反时取得最小。也就是说，梯度向量指向上坡，负梯度向量指向下坡。我们在负梯度方向上移动可以减小f。这被称为最速下降法 method of steepest descent 或梯度下降 gradient descent。

最速下降建议新的点为：

x⃗ ′=x⃗ −ϵ∇xf(x⃗ )

其中, ϵ为学习率 learning rate, 是一个确定步长大小的正标量。我们可以通过几种不同的方式选择ϵ。普遍的方式是选择一个小常数。有事我们通过计算，选择使方向导数消失的步长。还有一种方法是根据几个ϵ计算f(x⃗ −ϵ∇xf(x⃗ ))，并选择其中能产生最小目标函数值的ϵ。这中策略称为线搜索。

最速下降在梯度的每一个元素为零时收敛，或在实践中，很接近零时。在某些情况下，我们也许能够避免运行该迭代算法，并通过解方程∇xf(x⃗ )=0直接跳到临界点。

虽然梯度下降被限制在连续空间中的优化问题，但不断向更好的情况移动一小步，即近似最佳的小移动，的一般概念可以推广到离散空间。递增带有离散参数的目标函数称为盘山 hill climbing算法。

1.5 条件概率的链式法则

条件概率：

P(y=y∣x=x)=P(y=y,x=x)P(x=x)

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：

P(x(1),⋯,x(n))=P(x(1))∏i=2nP(x(i)∣x(1),⋯,x(i−1))

这个规则被称为概率的链式法则 chain rule 或者乘法法则 product rule。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习数学基础 deep-learning nlp

相关文章推荐

新的分享

章节导航