您的位置:首页 > 其它

随机梯度下降求解非平滑优化:收敛结果和最优平均策略。

2016-07-07 20:32 267 查看
参考文献:Stochastic Gradient Descent for Non-smooth Optimization:

Convergence Results and Optimal Averaging Schemes

文章分析了:

- Individual SGD Iterates的收敛性。

-

对于强凸的情况,期望误差为:

O(log(T)/T)

对于一般凸的情况,期望误差为:

O(log(T)/T−−√)

算法结束后,返回最后一次迭代的结果。

- Averaging Schemes的收敛性。

-

对于强凸的情况,期望误差为:

O(1/T)

对于一般凸的情况,期望误差为:

O(1/T−−√)

算法结束后,返回多次迭代的平均结果(依据不同的算法,产生不同的平均策略)

定义:

λ−stronglyconvex

如果对于所有的w,w′∈W,以及函数F在w处的任意梯度,下面的不等式成立:

F(w′)≥F(w)+<g,w′−w>+λ2||w′−w||2

其中,λ>0。那么,那么称函数F是λ−stronglyconvex。当λ=0时,一般的凸函数总是满足上面的不等式。

Individual SGD Iterates的收敛性

理论1:

假定函数F是λ−stronglyconvex,并且对于所有的t,满足E[||g^t||2]≤G2。考虑步长为ηt=1/λt的SGD。那么对于任何T>1,满足下面的不等式:

E[F(wT)−F(w∗)]≤17G2(1+log(T)λT

理论2:

假定函数F是凸函数,并且对于某些常数:D,G,满足:

E[||g^t||2]≤G2forallt

supw,w′∈W||w=w′||≤D

考虑步长为ηt=c/t√,其中c>0是一个常数。那么对于任何的T>1,总是满足下面的不等式:

E[F(wT)−F(w∗)]≤(D2c+cG2)2+log(T)T−−√

Averaging Schemes的收敛性

1、α−suffixaveraging**

即定义为最后αT次迭代的平均:

w¯¯¯αw=1αT∑t=(1−α)T+1Twt

缺点不能on-the-fly,需要存储后αT次的wt

2、维持所有直到t次的平均:

w¯¯¯t=(1−1t)w¯¯¯t−1+1twt

能够on-the-fly,仅获得次优的边界:O(log(t)/t.

3、polynomial−decayaveraing-作者提出的。

它具有两个优点:1、可以on-the-fly的计算,即实时的计算。2、它给出了一个最优的收敛速度。对于任意的t>1,其迭代计算公式如下:

w¯¯¯ηt=(1−η+1t+η)w¯¯¯ηt−1+η+1t+ηwt

其中w¯¯¯η1=w1,η≥0,通常η取一个比较小的数,例如η=3.

当η=0时,其变成上述的2。

理论4:

假定F是一个λ−stronglyconvex,并且E[||g^t||2]≤G2。考虑步长为ηt=1/λt和初始值为w1的SGD。同样的,我们令η≥1是一个整数。那么:

E[F(wηT)−F(w∗)≤58(1+ηT)(η(η+1)+(η+0.5)3(1+log(T))T)G2λT

即算法的更新策略为:

计算次梯度g^t

权重w更新迭代公式:

wt+1=Π(wt−ηtg^t)(1)

平均权重w¯¯¯更新迭代公式:

w¯¯¯ηt=(1−η+1t+η)w¯¯¯ηt−1+η+1t+ηwt

为了统一,上面的公式变为:

w¯¯¯ηt+1=(1−η+1t+η)w¯¯¯ηt+η+1t+ηwt+1(2)

算法终止,返回w¯¯¯t,t表示算法终止时,当前的迭代次数。

注意,公式(1)中的ηt和公式(2)中的η是完全不同的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: