CVPR 2019 | INIT:针对实例级的图像翻译

栏目: 编程工具 · 发布时间: 4年前

内容简介:近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix,BicycleGAN等,无监督模型包括CycleGAN, MUNIT, StarGAN, DRIT 等。由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。

CVPR 2019 | INIT:针对实例级的图像翻译

研究动机

近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix,BicycleGAN等,无监督模型包括CycleGAN, MUNIT, StarGAN, DRIT 等。

由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。

为了解决该问题, 作者基于 MUNIT 模型提出了基于端到端的训练模型 INIT ,其采用不同的风格编码来独立的翻译图像中的物体、背景以及全局区域。

CVPR 2019 | INIT:针对实例级的图像翻译   图1. 现有图像翻译模型的局限

模型架构

INIT 的网络架构非常类似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不仅对全局图像进行内容和属性编码,而且还对实例物体以及背景也进行内容-属性编码。即首先给定一对未对齐的图像和实例物体的坐标位置,应用全局编码器 Eg 以及局部编码器 Eo 分别获取全局图像和实例物体图像内容 c 和属性向量 s,然后通过交换属性向量来获取跨域的目标实例对象图像,整个模型的架构如下图所示。

CVPR 2019 | INIT:针对实例级的图像翻译   图2. INIT模型网络结构

另外作者修改了原始的循环重建过程使其不仅包括跨域(X 域->Y 域)模式重建还包括了跨粒度级(实例物体->全局图像)模式重建。对于跨域来说是完全基于 MUNIT 模型所提出的循环重建,针对跨粒度级的重建过程如图 3 所示,作者通过交换图像和实例物体的编码-解码对后生成图像,再对生成图像继续重复上一操作使得再次生成出的图像和实例物体应和原始图像以及实例物体一致。

CVPR 2019 | INIT:针对实例级的图像翻译   图3. 循环一致性损失(仅针对跨粒度级)

对于交换粒度级内容-属性编码对需要注意的是,作者采用了从粗略(全局)属性向量去结合细粒度级内容向量的交换方式,而如果逆转这一过程即利用细粒度的属性向量去结合粗粒度级的内容向量则无法实现(如图 4 所示)。

CVPR 2019 | INIT:针对实例级的图像翻译   图4. 内容-属性对交换策略

综上所述,模型采用的损失包括重构损失以及对抗损失,重构损失包括了全局图像重构以及局部实例物体重构,这两类的重构中又包括了图像重建损失、内容重建损失以风格重建损失。对抗损失也包括了全局对抗损失以及局部实例对抗损失,整个模型的损失函数如下。

CVPR 2019 | INIT:针对实例级的图像翻译

实验结果

作者的实验主要采用了自己设计的 INIT 数据集以及 COCO 数据集,INIT 数据集是由作者设计并首次应用于图像翻译问题,其中包含 155529 张高清街景图像并且不仅设计了 sunny, night, cloud, rain 四种域标签而且还对详细实例对象边界框注释(车,人以及交通标志)。

作者使用 LPIPS 矩阵、Inception-Score 以及 Conditional Inception-Score 对 INIT 模型进行评估,并和CycleGAN, UNIT, MUNIT, DRIT 进行比对,其中 INIT w/Ds 表示全局图像和局部实例对象共享一个鉴别器,INIT w/o Ds 则表示两个鉴别器独立,以下是实验结果。

CVPR 2019 | INIT:针对实例级的图像翻译

CVPR 2019 | INIT:针对实例级的图像翻译

总结

作者基于 MUNIT 的架构提出了针对实例级图像翻译技术,通过对提取实例对象的风格/属性来直接影响和指导目标域该物体的生成,这使得在进行复杂结构图象翻译时能产生更细致的结果。

从实验的效果图来看也能发现翻译后的图像在具体实例对象上也能更符合现实场景。另外作者还设计了 INIT 街景数据集,该数据集包括了对具体实例对象的注释框,有助于今后的图像翻译问题研究。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

信息规则

信息规则

[美] 卡尔・夏皮罗(Carl Shapiro)、[美] 哈尔・瓦里安(Hal Varian) / 张帆 / 中国人民大学出版社 / 2000-6 / 33.00元

本书的目标是,运用网络经济中的经济学知识,从经济研究和作者自己的经验中提取出适合信息相关产业的经理们的知识。本书描述的思想、概念、模型和思考方法会帮助读者作出更好的决策。一起来看看 《信息规则》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试