Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

栏目: IT技术 · 发布时间: 6年前

内容简介：如今，在 ImageNet 上的图像识别准确率的性能提升每次通常只有零点几个百分点，而来自图灵奖获得者 Geoffrey Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标细心的同学可能会注意到，许久不在社交网络上出现的深度学习先驱 Geoffrey Hinton 最近突然有了新动向。他领导的研究小组推出的 SimCLR 无监督方法瞬间吸引了人们的广泛关注：

如今，在 ImageNet 上的图像识别准确率的性能提升每次通常只有零点几个百分点，而来自图灵奖获得者 Geoffrey Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标 提升了 7-10%，甚至可以媲美有监督学习的效果 。

细心的同学可能会注意到，许久不在社交网络上出现的深度学习先驱 Geoffrey Hinton 最近突然有了新动向。他领导的研究小组推出的 SimCLR 无监督方法瞬间吸引了人们的广泛关注：

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

SimCLR 是一种简单而清晰的方法，无需类标签即可让 AI 学会视觉表示，而且可以达到有监督学习的准确度。论文作者表示，经过 ImageNet 上 1% 图片标签的微调，SimCLR 即可达到 85.8％的 Top-5 精度——在只用 AlexNet 1% 的标签的情况下性能超越后者。

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

论文链接：https://arxiv.org/pdf/2002.05709.pdf

在这一工作中，研究者们构建了一种用于视觉表示的对比学习简单框架 SimCLR，它不仅优于此前的所有工作，也优于最新的对比自监督学习算法，而且结构更加简单： 既不需要专门的架构，也不需要特殊的存储库。

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

图 1. SimCLR 与此前各类自监督方法在 ImageNet 上的 Top-1 准确率对比（以 ImageNet 进行预训练），以及 ResNet-50 的有监督学习效果（灰色×）。

在这篇论文中，研究者发现：

多个数据增强方法组合对于对比预测任务产生有效表示非常重要。此外，与有监督学习相比，数据增强对于无监督学习更加有用；
在表示和对比损失之间引入一个可学习的非线性变换可以大幅提高模型学到的表示的质量；
与监督学习相比，对比学习得益于更大的批量和更多的训练步骤。

基于这些发现，他们在 ImageNet ILSVRC-2012 数据集上实现了一种新的半监督、自监督学习 SOTA 方法——SimCLR。在线性评估方面，SimCLR 实现了 76.5% 的 top-1 准确率，比之前的 SOTA 提升了 7%。在仅使用 1% 的 ImageNet 标签进行微调时，SimCLR 实现了 85.8% 的 top-5 准确率，比之前的 SOTA 方法提升了 10%。在 12 个其他自然图像分类数据集上进行微调时，SimCLR 在 10 个数据集上表现出了与强监督学习基线相当或更好的性能。

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

无监督学习的快速发展让科学家们看到了新的希望，DeepMind 科学家 Oriol Vinyals 表示：感谢对比损失函数，无监督学习正在逼近监督学习！

简化方法，但效果更好

受到最近对比学习算法（contrastive learning algorithm）的启发，SimCLR 通过隐空间中的对比损失来最大化同一数据示例的不同增强视图之间的一致性，从而学习表示形式。具体说来，这一框架包含四个主要部分：

随机数据增强模块，可随机转换任何给定的数据示例，从而产生同一示例的两个相关视图，分别表示为 x˜i 和 x˜j，我们将其视为正对；
一个基本的神经网络编码器 f(·)，从增强数据中提取表示向量；
一个小的神经网络投射头（projection head）g(·)，将表示映射到对比损失的空间；
为对比预测任务定义的对比损失函数。

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

在社交网络上，该论文的作者之一，谷歌资深研究科学家 Mohammad Norouzi 对这一学习算法进行了最简单化的总结：

随机抽取一个小批量
给每个例子绘制两个独立的增强函数
使用两种增强机制，为每个示例生成两个互相关联的视图
让相关视图互相吸引，同时排斥其他示例

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

SimCLR 的主要学习算法如下：

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习

用更大的批大小进行训练

作者将训练批大小 N 分为 256 到 8192 不等。批大小为 8192 的情况下，增强视图中每个正对（positive pair）都有 16382 个反例。当使用标准的 SGD/动量和线性学习率扩展时，大批量的训练可能不稳定。为了使得训练更加稳定，研究者在所有的批大小中都采用了 LARS 优化器。 他们使用 Cloud TPU 来训练模型 ，根据批大小的不同，使用的核心数从 32 到 128 不等。

数据增强

虽然数据增强已经广泛应用于监督和无监督表示学习，但它还没有被看做一种定义对比学习任务的系统性方法。许多现有的方法通过改变架构来定义对比预测任务。

本文的研究者证明，通过对目标图像执行简单的随机裁剪（调整大小），可以避免之前的复杂操作，从而创建包含上述两项任务的一系列预测任务，如图 3 所示。这种简单的设计选择方便得将预测任务与其他组件（如神经网络架构）解耦。

Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习