您的位置:首页 > 理论基础 > 计算机网络

【论文考古】神经网络优化 Qualitatively Characterizing Neural Network Optimization Problems

2022-02-25 18:39 811 查看
  1. Goodfellow, O. Vinyals, and A. M. Saxe, “Qualitatively characterizing neural network optimization problems,” arXiv:1412.6544 [cs, stat], May 2015. [Online]. Available: http://arxiv.org/abs/1412.6544

主要工作

文章提出一种方法,用来检测训练好的神经网络,在初始参数与最终解的直线路径上,有没有遇到局部最优点等阻碍。利用$\theta_0,\theta_f$两个参数点的凸组合,通过改变$\alpha$的值来计算合成的参数$\theta= (1-\alpha)\theta_0+\alpha \theta_f$的损失函数$J(\theta)。对于两个不同随机种子下找到的解\theta_,\theta_$,图像如下:

  • 两个不同的局部最优点之间包含了一个高loss的障碍,但没有其他局部最优点了。这个性质被McMahan发现后,应用在了相同初始点的过拟合网络合并上,发现loss反而下降。
  • 两个局部最优点更像是经过一个鞍点后的不同选择,而不是完全有不同效果的两个解

这个文章的价值在于提出了一种检测的方法,但是实际应用很窄,毕竟直线路径里包含的线性子空间太小了。但是McMahan用这个方法来验证了网络的合并,还是很有创意的。

观点

  • SGD在有偏的loss估计时是行不通的。也就是说每轮选取一个non iid data的用户来更新全局梯度,最后多半不收敛。

    SGD of course only ever acts on unbiased stochastic approximations to this loss function.

  • 局部最优点在训练大型神经网络时不是什么大问题。

    These results are consistent with recent empirical and theoretical work arguing that local minima are not a significant problem for training large neural networks.

    通过实验找了一个随机点和参数点的线性空间中loss的值,没有明显上升,所以局部最优点是稀疏的。(有点太随机了,说服力不够)

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐