技术资讯 | 无监督视觉表征学习的最新进展&实践

栏目: IT技术 · 发布时间: 6年前

内容简介：01引言

引言

有监督学习通常依赖大量标注数据以达到较好的性能，然而数据标注可能需要很高的成本。因此使用无监督学习方法从无标签数据中获取信息是一个很有价值的方向。

自监督学习首先设置一个 辅助任务 （pretext task），使用数据本身构建监督信号，用有监督学习的方法进行训练。模型可以学习到良好的数据表征，从而有益于下游的实际任务。

自监督学习：无监督学习的一种形式，本文不对这两个名词作区分。

近几年，在自然语言处理中，自监督学习得到了广泛应用，并取得良好效果，如：BERT[1]。而计算机视觉中通常采用监督预训练方法，自监督方法应用较少。

在图像无监督学习的研究中，一些启发式的方法被应用于辅助任务，如：预测图块的相对位置[2]、预测图像旋转角度[3]、拼图[4]、自动着色[5]等。这些方法依赖于特定的启发式任务，某种程度上限制了所学习表征的泛化性。

技术资讯 | 无监督视觉表征学习的最新进展&实践

图1 预测图像旋转角度[3]

最近两年，基于 对比学习 （contrastive learning）的实例判别任务被用于图像无监督训练的辅助任务，并在下游任务的微调中得到与ImageNet上监督预训练模型相当甚至更优的结果。

本文主要介绍基于对比学习的无监督视觉表征学习方法、该方向最新的几篇论文以及将该方法应用于视频预训练中的实践。

基于对比学习的无监督学习方式

实例判别（instance discrimination）任务[6, 7]将每一个实例作为一个类别，每个实例的不同数据增强形式认为是同一类样本，然后使用度量学习的对比损失函数进行模型训练。

训练使用样本query及用于对比的样本key，key中正样本通常使用与query同一实例的不同数据增强方式产生。而负样本的选取则一般有两种方式（图2）：

技术资讯 | 无监督视觉表征学习的最新进展&实践

图2

(a) 从同一个batch里取负样本

(b) 从memory bank里取负样本 [8]

(a)end-to-end：

训练时同一个batch的其他实例作为负样本；

(b)memory bank：

将训练过程中样本的表征向量存储到一个memory bank，负样本从memory bank中随机选取一个子集。

方法 (a) 的缺点在于：负样本数量受限于batch size，较少的负样本数量导致对映射空间的表征能力不足，影响学习效果；

方法 (b) 可以获得充足的负样本，但是由于模型在不断更新，memory bank中负样本之间及当前正样本的映射不一致，同样会影响学习效果。

一种常见的 对比损失函数 如下：

技术资讯 | 无监督视觉表征学习的最新进展&实践

其形式类似于传统分类任务中的softmax与交叉熵。向量q为当前query向量，由编码器encoder q产生，ki为用于对比的key向量，由编码器encoder k产生，其中k+为正例，其他为负例。样本之间的相似性使用余弦距离表示，优化目标为使q与k+接近且远离其他ki。

参考文献

[1] Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.

[2] Unsupervised visual representation learning by context prediction. In ICCV, 2015.

[3] Unsupervised representation learning by predicting image rotations. In ICLR, 2018.

[4] Unsupervised learning of visual representations by solving jigsaw puzzles. In ECCV, 2016.

[5] Colorful image colorization. In ECCV, 2016.

[6] Discriminative unsupervised feature learning with convolutional neural networks. In NIPS, 2014.

[7] Unsupervised feature learning via non-parametric instance discrimination. In CVPR, 2018.

[8] Momentum contrast for unsupervised visual representation learning. In CVPR, 2020.

[9] A Simple Framework for Contrastive Learning of Visual Representations.

[10] Improved Baselines with Momentum Contrastive Learning.

投稿 | 内容标签团队

编辑 | sea

排版 | sea

往期推荐

技术资讯 | 无监督视觉表征学习的最新进展&实践

在看点一下大家都知道

以上所述就是小编给大家介绍的《技术资讯 | 无监督视觉表征学习的最新进展&实践》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

全栈开发之道

和凌志 / 电子工业出版社 / 68.00元

全栈（Full Stack）是一种全新的以前端为主导的框架，框架选型聚焦在MEAN（MongoDB、Express、AngularJS、Node.js）上。选用MEAN全栈技术，可以快速地实现敏捷开发，尤其是到了产品的运营阶段，其优势表现得非常明显。本书主要介绍MEAN全栈技术，分为入门篇、基础篇和实战篇，入门篇对全栈进行了概述，基础篇重点介绍了全栈的四个主要技术，即MongoDB、Express......一起来看看《全栈开发之道》这本书的介绍吧!

码农工具

技术资讯 | 无监督视觉表征学习的最新进展&实践

参考文献

全栈开发之道

HTML 压缩/解压工具

JS 压缩/解压工具

RGB CMYK 转换工具