史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

栏目: 数据库 · 发布时间: 4年前

内容简介：不得了，以生成逼真假照片出名、被称作“史上最佳GAN”的挑战者同样来自Google DeepMind，其新鲜出炉的VQ-VAE二代生成模型，生成出的图像，号称比BigGAN更加高清逼真，而且更具有多样性！不服气？那先看看这些假照片作品。

栗子安妮发自凹非寺

量子位出品 | 公众号 QbitAI

不得了，以生成逼真假照片出名、被称作“史上最佳GAN”的 BigGAN ，被“本家”踢馆了。

挑战者同样来自Google DeepMind，其新鲜出炉的VQ-VAE二代生成模型，生成出的图像，号称比BigGAN更加高清逼真，而且更具有多样性！

不服气？那先看看这些假照片作品。

浓眉大眼的棕发妹子，与歪果仁大叔：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

神似何洁的亚裔面孔：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

胡子清晰可见的短发男：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

此外，还有各种类型的动物：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

在Top-1准确率测试上，VQ-VAE二代比BigGAN成绩多出了16.09分。

DeepMind负责星际项目、也是这项研究的作者之一Oriol Vinyals表示，VQ-VAE二代简直令人惊讶，如此简单的想法竟然能够产生如此好的生成模型！

甚至……连曾经也推出过逼真假脸的 英伟达员工 ：英伟达研究院的高级研究科学家Arash Vahdat，也在研究推特下评价：

令人印象深刻啊！！！

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

短短几小时，这项研究在推特上收获了500多赞，以及上百次转发。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

来具体看看效果。

真实效果，好到惊艳

VQ-VAE生成的假照片，可以Hold住多种规格的精确度，在ImageNet上，可以训练出256×256像素的动物：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

如果投喂英伟达7万张高清人脸数据集FFHQ（Flickr-Faces-HQ），输出的图像则为1024×1024像素的高清大图，连人脸上的细微毛孔都清晰可见：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

这些高清的妹子脸，颜值看起来也不低呢：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

VQ-VAE生成出的假照片，比BigGAN的作品多样多了。

与BigGAN相比，VQ-VAE不仅能生成不同物体和动物，还能生成 不同视角 以及 不同姿势 的版本。

比如，同样是生成鸵鸟，这是VQ-VAE的作品：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

而VQ-VAE，光鸵鸟头就能生成不同姿态，有正脸的、侧对镜头的、45度角抬头仰望天空的、以及不想露脸上镜的：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

甚至相对简单没有四肢的金鱼，都能合成这么多形态：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

而BigGAN的角度相对来说非常单一：

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

除了肉眼可见的视觉对比，研究人员还做了一票实验，用多个性能指标证明VQ-VAE二代在多维度上优于BigGAN。

从分类准确率得分（Classification Accuracy Score，CAS）上看，VQ-VAE在Top-1准确率上为58.74分，超出了BigGAN 42.65的成绩16.09分，在Top-5准确率上，VQ-VAE领先了15.06分。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

在精确率-召回率指标（Precision - Recall metrics）上，VQ-VAE的精度比BigGAN 稍低，但召回值高出了一大截。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

在Inception Scores（IS）上，VQ-VAE没有超越领先前人100多分BigGAN的成绩，但FID值较低。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

总体来说，VQ-VAE的表现，在多样性和视觉感官上，已经超越了BigGAN，在各项性能指标上表现也还不错。

弥补了GAN的缺点

VQ-VAE-2可以理解成一个通信系统。

其中有 编码器 ，把观察到的信息映射到一组离散的潜变量 (Latent Variables) 上。

还有 解码器 ，把这些离散变量中的信息重构 (Reconstruct) 出来。

系统分成两部分，都是由编码器和解码器构成的。

第一部分

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

它是一个 分层的VQ-VAE ，可以把不同尺度的信息分开处理。

比如，输入一张 256×256 图像，编码器要把它压缩进不同的潜在空间里：

顶层 (Top Level) 要压缩成 64×64 的潜在映射图，为**全局信息 (比如形状等) 生成潜码；

底层 (Bottom Level) 要压缩成 32×32 的潜在映射图，为 局部信息 (比如纹理等) 生成潜码。

然后，解码器用这两个潜在映射图 (Latent Maps) 中，做出一张与原图同样大小的重构图，其中包含了局部和全局信息。

团队发现，如果不用顶层来调节 (Condition) 底层，顶层就需要编码像素中每一个细节。

所以，他们就让每个层级分别依赖于像素 (Separately Depend on Pixels) ：可以鼓励AI在每个映射图中，编码补充信息 (Complementary Information) ， 降低重构误差 。

而学到 分层潜码 (Hierarchical Latent Codes) 之后，该进入下一部分了：

第二部分

在从潜码中学到先验 (Prior) ，生成新图。

这一部分，是二代与一代最大的区别所在：把一代用到的自回归先验 (Autoregressive Priors) 扩展、增强了。

用当前最优秀的PixelRNN模型来为先验建模，这是一个带自注意力机制的自回归模型，能够把先验分布 (Prior Distribution) ，和上一部分学到的边界后验 (Marginal Posterior) 匹配起来。

这样，可以生成比从前相干性更高，保真度也更高的图像。

和第一部分相似：这里也有编码器和解码器，可以进一步压缩图像。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

做好之后，从先验里取样，可以生成新的图像：和原图清晰度一致，并且保持了相关性 (Coherence) 。

两个部分合在一起，可以把256×256的图像，压缩200倍来学习；把1024×1024的高清大图，压缩50倍来学习。

团队说这样一来， 把图像生成速度提升了一个数量级 。

在需要快速编码、快速解码的应用上，这样的方法便有了得天独厚的优势。

同时，还避免了GAN的两个著名缺点：

一是 mode collapse ，即生成某些图像之后，GAN的生成器和判别器就达成和解，不再继续学习了；二是 多样性不足 的问题。

作者简介

这项研究的作者共有三位，均来自DeepMind，Ali Razavi和Aäron van den Oord为共同一作，Oriol Vinyals为二作。

Ali Razavi博士毕业于滑铁卢大学，此前在IBM、Algorithmics和Google就职过，2017年加入DeepMind，任职研究工程师。

研究员Aäron van den Oord小哥主要研究生成模型，此前还参与Google Play的音乐推荐项目。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

2017年，Aäron参与了哈萨比斯项目组关于Parallel WaveNet的研究，为这篇论文的第一作者。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

Oriol Vinyals小哥此前参与了多个明星项目，比如星际项目、比如AlphaStar，还与图灵奖得主Geoffrey Hinton和谷歌大脑负责人Jeff Dean一起合作过，合著论文Distilling the knowledge in a neural network。

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

对了，最先称赞BigGAN是“史上最佳GAN”的人，也是他~

传送门

论文Generating Diverse High-Fidelity Images with VQ-VAE-2地址：

https://arxiv.org/abs/1906.00446

— 完 —

一周精选推荐

史上最佳GAN被超越！生成人脸动物高清大图真假难辨，DeepMind发布二代VQ-VAE

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Java高并发编程详解

汪文君 / 机械工业出版社 / 2018-6 / 89.00元

本书共分为四个部分：部分详细地介绍了Java多线程的基本用法和各个API的使用，并且着重介绍了线程与Java虚拟机内存之间的关系。第二部分由线程上下文类加载器方法引入，介绍为什么在线程中要有上下文类加载器的方法函数，从而掌握类在JVM的加载和初始化的整个过程。第三部分主要围绕着volatile关键字展开，在该部分中我们将会了解到现代CPU的架构以及Java的内存模型（JMM）。后一部分，主要站在架......一起来看看《Java高并发编程详解》这本书的介绍吧!

码农工具