谷歌大脑提出对抗正则化方法，显著改善自编码器的泛化和表征学习能力

栏目: 编程工具 · 发布时间: 7年前

内容简介：自编码器因其优越的降维和无监督表征学习能力而知名，而过去的研究表明自编码器具备一定程度的插值能力。来自谷歌大脑的 Ian Goodfellow 等研究者从这一角度提出了一种新方法，显著改善了自编码器的平滑插值能力，这不仅能提高自编码器的泛化能力，对于后续任务的表征学习也会大有帮助。无监督学习的目标之一是不依靠显式的标注得到数据集的内在结构。自编码器是一种用于达成该目标的常见结构，它学习如何将数据点映射到隐编码中——利用它以最小的信息损失来恢复数据。通常情况下，隐编码的维度小于数据的维度，这表明自编码器可以

选自arXiv

机器之心编译

参与：Pedro、王淑婷

自编码器因其优越的降维和无监督表征学习能力而知名，而过去的研究表明自编码器具备一定程度的插值能力。来自谷歌大脑的 Ian Goodfellow 等研究者从这一角度提出了一种新方法，显著改善了自编码器的平滑插值能力，这不仅能提高自编码器的泛化能力，对于后续任务的表征学习也会大有帮助。

1 引言

无监督学习的目标之一是不依靠显式的标注得到数据集的内在结构。自编码器是一种用于达成该目标的常见结构，它学习如何将数据点映射到隐编码中——利用它以最小的信息损失来恢复数据。通常情况下，隐编码的维度小于数据的维度，这表明自编码器可以实施某种降维。对于某些特定的结构，隐编码可以揭示数据集产生差异的关键因素，这使得这些模型能够用于表征学习 [7,15]。过去，它们还被用于预训练其它网络：先在无标注的数据上训练它们，之后将它们叠加起来初始化深层网络 [1,41]。最近的研究表明，通过对隐藏空间施加先验能使自编码器用于概率建模或生成模型建模 [18,25,31]。

某些情况下，自编码器显示了插值的能力。具体来说，通过在隐藏空间中混合编码以及对结果进行解码，自编码器可以生成对应数据点的语义上有意义的组合。这种行为本身就很有用，例如用于创造性应用 [6]。尽管如此，我们还认为它展示了一种广义上的「泛化」能力——这意味着自编码器并不只是简单地记忆如何重建一小部分数据点。从另一个角度来看，它还表明自编码器发现了一些数据的内在结构并在其隐藏空间中捕获了它。这些特点使得插值经常出现在关于自编码器 [5,11,14,26,27,32] 及隐变量生成模型研究的实验结果中 [10,30,38]。基于无监督表征学习 [3] 和正则化 [40] 的插值与「平面」数据流形之间的联系已经被探索过。

尽管插值应用广泛，其定义仍然有些不够明确，因为它的定义依赖于「语义上有意义的组合」的概念。此外，人们也很难直观的理解为什么自编码器应该具有插值能力——用于自编码器的目标或结构都没有明确地对其提出过这种要求。本文主要在自编码器的规范化以及插值改进方面做出了以下贡献：

提出了一种对抗正则化策略，该策略明确鼓励自编码器中的高质量插值（第 2 节）。
开发了一个简单的基准，其中插值定义明确且可以量化（第 3.1 节）。
定量地评估了常见的自编码器模型实施有效插值的能力；同时还展示了本文提出的正则化项更优的插值能力（3.2 节）。
证明了正则化项有利于后续任务的表征学习（第 4 节）。