您的位置：首页 > 理论基础 > 计算机网络

马里兰大学帕克分校提出对「损失函数」进行「可视化」，以提高神经网络的训练能力

2018-01-02 00:00 531 查看

原文来源：arxiv作者：Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein「雷克世界」编译：嗯~阿童木呀、KABUDA
一般来说，我们对于神经网络的训练，往往依赖于找到高度非凸损失函数的“极好”极小值的能力。众所周知，某些网络体系结构的设计（例如，跳过连接）能够产生更容易进行训练的损失函数，且用精心挑选的参数（批量大小，学习速率，优化器）进行训练则能够产生可以进行更好泛化的最小化值。然而，这些差异之所以产生的原因，以及它们对潜在损失情况（loss landscape）所造成的影响，目前尚不清楚。
在本文中，我们使用一系列的可视化方法，探讨了神经损失函数的结构，以及损失格局对泛化的影响。首先，我们引入了一种简单的“过滤器正则化（filter normalization）”方法，它帮助我们将损失函数曲率进行可视化，并在损失函数之间进行有意义的并行比较。然后，使用各种可视化技术，我们探索了网络架构是如何影响损失情况的，以及训练参数如何影响最小化的形状的。

图1：在有/没有跳过连接的情况下，ResNet-56的损失表面。纵轴是表示动态范围的对数。所提出的过滤器正则化方案用于比较两张图之间的锐度/平面度。
可以这样说，训练神经网络需要最小化高维非凸损失函数，从理论上而言，这是一项艰难的任务，但有时在实践中是很容易实现的。尽管训练通用神经损失函数（Blum和Rivest于1989年提出）具有NP级难度指数，简单的梯度方法也经常能够发现全局最小值（参数配置具有零或接近零的训练损失），即使是在训练之前对数据和标签进行随机化的情况下也是如此。但是，这种良好的行为并不是普遍存在的，神经网络的可训练性高度依赖于网络体系结构设计的选择、优化器的选择、变量的初始化以及各种其他考虑因素。不幸的是，这些选择中的每一个将对潜损失表面的结构产生怎样的影响还不清楚。由于损失函数评估的成本过高（需要对训练集中的所有数据点进行循环操作），因此该领域的相关研究仍然主要是理论性的。

图2：通过用VGG9的小批量和大批量方法所获得的解决方案的一维线性插值。其中，蓝线代表损失值，红线代表准确度。实线代表训练曲线，虚线是用于测试的。小批量为横坐标0，大批量为横坐标1。
我们的目标是使用高分辨率的可视化技术对神经损失函数进行一种经验式表征，并探索不同的网络架构选择将如何影响损失情况。此外，我们探讨神经损失函数的非凸结构是如何与它们的可训练性相关的，以及神经最小化器的几何形状（即它们的锐度/平坦度及其周围情况）将如何影响它们的泛化特性。

图3：权重的柱状图。在零权重衰减的情况下，小批量的方法产生较大的权重；在非零的权重衰减情况下，小批量的方法产生较小的权重。

图4：使用不同的优化算法获得的最小值的形状，它们具有不同的批量大小和权重衰减（weight decay）。每个子图的标题中包含优化器，批量大小和测试误差。第一行没有权重衰减，第二行使用权重衰减5e-4。
为了以一种有意义的方式实现这一目标，我们提出了一个简单的“过滤器正则化”方案，使得我们能够对通过不同方法找到的不同最小值进行并行比较。然后，我们使用可视化技术对通过不同方法所找到的最小化值的锐度/平坦度进行探索，以及探索网络架构的选择（使用跳过连接、过滤器数量、网络深度）对损失情况所产生的影响。我们的目标是理解损失函数几何的差异将对神经网络的泛化产生怎样的影响。

图5：由小批量和大批处理的SGD所获得的解决方案的二维可视化。与图4类似，第一行使用零权重衰减，第二行将权重衰减为5e-4。

在这篇文章中，我们研究了产生有意义的损失函数的可视化方法。并且，我们运用这些方法探讨了损失情况几何形状（loss landscape geometry）是如何影响泛化误差和可训练性的。具体而言，我们解决了以下问题：
•我们揭示了许多损失函数可视化方法中的错误，并且表明了简单的可视化策略不能准确地捕捉损失函数极小值的局部几何形状（锐度和平坦度）。
•我们提出了一种基于“过滤器正则化”的简单可视化方法，它可以对不同的极小值进行并行比较。在使用这种可视化方法时，极小值的锐度和泛化误差可以很好地关联，即使在不同的网络体系结构和训练方法中进行锐度比较时亦是如此。
•我们观察到，当网络变得足够深时，神经损失情况（neural loss landscapes）会突然从近乎凸面过渡为高度混乱。从凸面到混乱行为的转变似乎是我们过去未曾注意到的，这与泛化误差的急剧下降相吻合，最终导致缺乏可训练性。
•我们表明了跳过连接（skip connections）可以促进平面最小化，并防止过渡到混乱行为，这有助于解释为什么跳过连接是训练极其深度网络所必需的原因。
•我们研究SGD优化轨迹的可视化。我们解释了将这些轨迹进行可视化时出现的困难，并表明了优化轨迹是在极低维度的空间中进行的。这种低维度可以通过在损失情况中出现的大的近凸区域进行解释，正如我们在二维可视化中观察到的那些区域那样。
在本文中，我们提出了一种全新的、更精确的可视化技术，它为神经网络从业者面临的各种选择（包括网络架构、优化器选择和批量大小）的后果提供了见解。
近年来，神经网络有了飞速发展，这很大程度上取决于已有知识和对理论结果的复杂假设。为了取得更多进展，需要对神经网络结构有更加全面的了解。我们希望有效的可视化加上不断进步的理论，可以加快训练速度、简化模型、以及更好的泛化。
原文链接：https://arxiv.org/pdf/1712.09913.pdf
欢迎个人分享，媒体转载请后台回复「转载」获得授权，微信搜索「BOBO_AI」关注公众号
中国人工智能产业创新联盟于2017年6月21日成立，超200家成员共推AI发展，相关动态：中新网：中国人工智能产业创新联盟成立ChinaDaily：China forms 1st AI alliance证券时报：中国人工智能产业创新联盟成立启动四大工程搭建产业生态“梁柱”工信部网站：中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合作备忘录

点击下图加入联盟

下载中国人工智能产业创新联盟入盟申请表

关注“雷克世界”后不要忘记置顶哟我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……

↓↓↓[b]点击阅读原文查看中国人工智能产业创新联盟手册[/b]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航