CVPR2019|基于场景图的可解释显示视觉推理

栏目: 编程工具 · 发布时间: 4年前

计算机视觉三大顶会之一CVPR201正在美国洛杉矶举办,此前接收结果已经公布,一共有 1300篇 论文被接收,接收率为 25.2%

今天分享给大家的是其中一篇被接收的论文 《Explainable and Explicit Visual Reasoning over Scene Graphs》。

论文链接: https://arxiv.org/pdf/1812.01855.pdf

研究背景

视觉问答(Visual Question Answering)是近年来很受关注的一个跨模态任务,它的输入是一张图片和一个与图片有关的自然语言问题(如“桌上放着什么东西”),目标是让模型自动回答该问题。

视觉推理(Visual Reasoning)与视觉问答的形式类似,但输入的问题更难,且会涉及到物体之间的多跳关系(如“桌子旁边的椅子上的盘子是什么颜色”),这就要求模型具有推理能力。视觉推理任务最早由李飞飞等人在2017 年提出,他们提出的 CLEVR [1]数据集是目前使用最多的。


神经模块网络(Neural Module Networks,NMN)[2]是解决视觉推理任务的一类有效方法。

它定义了很多小的神经模块,每个模块负责特定的功能(如定位物体,转移注意力等),然后将输入的问题解析为模块的组合从而得到一个由模块组成的程序,执行程序即可得到问题的答案。它充分利用了语言的可组合性,并且大大增加了模型的透明度。已有的 NMN 方法都是直接对图片本身的像素级特征进行操作,该论文认为人脑的推理过程是建立在符号、概念等基础上的,仅利用像素级信息很难进行精确的推理。另外已有的 NMN 方法需要仔细设计每个模块的内部实现细节,这是很需要技巧的,不容易扩展到新的领域。

论文方法


论文提出了基于场景图(Scene Graph)来实现 NMN进行视觉推理。

Scene Graph 是对图片进行解析后得到的结果,它的节点(node)对应图片中的物体,它的边(edge)对应物体之间的关系。作者认为物体检测和场景推理任务应该分离开来,推理任务直接建立在检测出来的物体上,而不是像以往的方法那样建立在像素级别上。基于 Scene Graph,作者设计了以下四种基本操作,作为元模块(Meta Modules):

CVPR2019|基于场景图的可解释显示视觉推理

AttendNode 输出一个在所有节点上的注意力向量,用来找到特定的物体节点;AttendEdge 输出一个在所有边上的注意力矩阵,用来找到特定的关系;Transfer 用来将注意力从一个节点转移到其他节点上,转移的路径由边上的注意力权重决定;Logic 用来对注意力向量进行逻辑操作,即与或非。

只需要对这四种元模块进行组合,即可得到更加复杂的模块,以在 CLEVR 等数据集上使用,这大大简化了模块内部实现的设计。另外,所有的元模块都完全基于注意力机制,意味着在执行由模块组成的程序时,所有中间过程都可以进行可视化,这大大增强了模型的可解释性。


下面是论文方法的流程图。对于输入的图片和问题,使用外部解析器,将图片解析成 Scene Graph,将问题解析成模块组成的程序,然后在 Scene Graph 上执行程序,从而得到预测的答案。

CVPR2019|基于场景图的可解释显示视觉推理

实验结果

论文在三个数据集上做了实验,分别是 CLEVR、CLEVR-CoGenT 和 VQA2.0。其中CLEVR 和 CLEVR-CoGenT 是合成数据集,VQA2.0 是真实数据集。
下表给出了在 CLEVR 上的结果,其中 XNM-GT 表示使用的是标注好的 Scene Graph,XNM-Det 表示使用的是检测出来的 Scene Graph,可以看到当Scene Graph 完全正确时,论文方法可以达到100%的准确率。由于论文提出的模块设计非常简单,模型只需要非常小的参数量,只是其他模型的几十分之一甚至几百分之一。

CVPR2019|基于场景图的可解释显示视觉推理

下表给出了在 CLEVR-CoGenT 上的结果,该数据集有两种设定,分别是 Condition A 和 Condition B,训练集全部都是 Condition A,而测试集则既有 A 也有 B。可以看到当 Scene Graph 完全正确时,在两种条件下论文方法均可以达到100%的准确率。

CVPR2019|基于场景图的可解释显示视觉推理

在 VQA2.0 上的结果,论文提出方法的效果要远远好于使用像素级特征的 StackNMN,同时也表明了方法在真实数据集上同样适用。

CVPR2019|基于场景图的可解释显示视觉推理

AI Time是一群关注人工智能发展,并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造成为北京乃至全国人工智能知识分享的策源地和聚集地。

AI Time:论道自动机器学习与可解释机器学习

时间:6月19日15:00-17:00

地点:海淀区中关村东路搜狐大厦二楼1911(清华科技园)

本次活动我们邀请了四位大牛:美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu(ACM/IEEE Fellow,原ACM TKDD主编)、美国密歇根大学Qiaozhu Mei教授(绝对的青年才俊,刚拿了WWW 最佳论文,之前还拿过ICML、WSDM最佳论文)、北京大学的王立威教授(无敌的青年才俊,ML理论方面难逢对手)、百度高级研究员李兴建。

赶快戳下方小程序进入AI Time报名通道!

CVPR2019|基于场景图的可解释显示视觉推理

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文 访问AMiner官网


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

用户故事地图

用户故事地图

Jeff Patton / 李涛、向振东 / 清华大学出版社 / 2016-4-1 / 59.00元

用户故事地图作为一种有效的需求工具,越来越广泛地应用于开发实践中。本书以用户故事地图为主题,强调以合作沟通的方式来全面理解用户需求,涉及的主题包括怎么以故事地图的方式来讲用户需求,如何分解和优化需求,如果通过团队协同工作的方式来积极吸取经验教训,从中洞察用户的需求,开发真正有价值的、小而美的产品和服务。本书适合产品经理、用户体验设计师、产品负责人、业务分析师、IT项目经理、敏捷教练和精益教练阅读和......一起来看看 《用户故事地图》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试