CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

栏目: 编程工具 · 发布时间: 4年前

内容简介:本文经授权转载自知乎专栏:计算机视觉论文速递作者:彭思达

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

本文经授权转载自知乎专栏:计算机视觉论文速递

作者:彭思达

https://zhuanlan.zhihu.com/p/65400509

我们介绍一篇2019 CVPR oral的6D Pose Estimation的论文:

PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

该论文由 浙江大学CAD&CG国家重点实验室 提出。

截止目前,据我们所知,PVNet是 6D Pose Estimation方法中效果最好 的论文。PVNet的输入为RGB图片,效果与2019 CVPR的RGB-D方法DenseFusion相同。

1. 引言

1.1 论文的问题描述

输入一张图片,6D Pose Estimation这个问题的目标是检测出物体在3D空间中的位置和姿态。随着计算机视觉算法的提升,对3D空间中物体状态的检测越来越受关注。在2018 ECCV上,最佳论文奖也授予给了6D Pose Estimation领域的论文。

通过感知图片中物体的状态,可以提高计算机对这个世界的认知,从而有诸多应用,比如机器抓取,物流仓库无人运输,AR/VR。近年来,亚马逊开展的Amazon Picking Challenge,预示着6D Pose Estimation在工业无人化的重要应用。

1.2 当前方法在这个问题的局限性

传统方法常常借助local descriptor来解决6D Pose Estimation这个问题。但是,对于没有表面问题的物体,local descriptor的提取往往很差。近年来,深度学习对场景理解的能力非常瞩目,也就有工作希望通过一个网络直接从图片中回归出物体的6D Pose,但发现网络的泛化能力一般。6D Pose的搜索空间大,是导致网络泛化能力一般的一个原因。

最新的6D Pose Estimation工作会先在2D图片中检测物体的关键点,然后通过2D-3D的对应,用PnP计算出物体的6D Pose。在2D图片中检测关键点大大减小了网络的搜索空间,深度学习方法在6D Pose Estimation的效果也有了很大的提升。但对于Occlusion,Truncation这些状态下的物体,效果仍然有局限性。

1.3 我们的观察和对问题的解决

我们观察到,对于occlusion的物体,图片中有很多其他无关物体的干扰。因此,我们提出利用物体可见部位的局部信息,来检测关键点。首先,我们检测出物体的可见部位。然后,每个像素预测一个指向物体关键点的方向向量。

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

这个 新的关键点定位方法 相对于heatmap的关键点检测方法有 三大优势

一个是heatmap方法对关键点只有一次预测,而在我们的方法中, 物体可见部分的像素对关键点都有一个预测,极大提高了模型的鲁棒性

第二个优势是,我们对物体关键点的方向向量场的表示, 很大程度上利用了刚体物体的性质 。对于刚体物体,我们人只要见到物体露出的一部分,就能推测出物体其他部分的方向。通过方向向量场的表示,可以帮助网络学习到刚体物体的结构性质。

第三个优势是,heatmap只能表示图片内的关键点,而方向向量场可以检测图片外的关键点,所以 可以检测Truncation状态下的物体的6D Pose

1.4 论文的效果

因为我们关键点定位方法的两大优势,我们的论文PVNet在6D Pose Estimation上有很大的提升。在经典的LINEMOD数据集上,我们方法在ADD(-S) metric上有 30.32%的提升 。在比较困难的Occlusion LINEMOD数据集上,有 10.37% 的提升。

我们的论文方法只输入RGB图片,和目前效果最好的RGB-D方法DenseFusion在LINEMOD数据集上效果相同。而且,我们方法还能实时检测6D Pose,有25FPS的速度,在我们的论文主页中有一个实时demo。我们还发布了一个Truncation LINEMOD数据集,用于推动community对Truncation状态下的物体的6D Pose Estimation。

2. 论文方法

2.1 一种新的关键点定位方法

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

我们论文的主要贡献是提出了一个新的关键点定位方法。首先,PVNet读入一张RGB图片,然后输出目标物体的semantic segmentation和指向物体关键点的向量场。随后,通过Ransac voting,我们从方向向量场计算出物体的关键点。

在关键点的生成过程中,PVNet同时还会生成物体关键点的概率分布,也就是关键点空间分布的mean和covariance。我们随后在PnP中,利用关键点的不确定性,进一步提升了6D Pose Estimation的鲁棒性。

2.2 对物体关键点的新定义

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群
CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

在实验中,我们还发现物体关键点的定义对关键点的定位影响很大。之前的深度学习方法将物体的关键点简单地定义为物体在3D空间中的bounding box的八个角点。这8个角点在2D图片中可能离物体比较远,加大了关键点检测的难度。

我们用farthest point sampling算法,生成物体表面的8个关键点。在实验中可以看出,角点的covariance往往比较大,而物体表面关键点的不确定性比较小。

3. 实验分析

3.1 Ablation study

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

在实验中,我们首先验证了自己提出的做法的有效性,包括关键点定位方法和新的关键点定义。实验在Occlusion LINEMOD上进行,metric为ADD(-S) metric。

Tekin一列代表之前检测bounding box角点的工作,而BBox 8一列是PVNet检测bounding box角点时的6D Pose Estimation Accuracy。可以看出,我们提出的关键点定位方法有很大的提升。

FPS 8一列,是我们PVNet检测8个表面关键点时的6D Pose Estimation Accuracy。可以看出,检测表面关键点,可以让ADD(-S) metric有进一步的提升。

3.2 与其他方法的比较

我们在LINEMOD数据集和Occlusion LINEMOD数据集上和之前的方法进行了比较。在经典的LINEMOD数据集上,我们方法在ADD(-S) metric上有30.32%的提升。在比较困难的Occlusion LINEMOD数据集上,有10.37%的提升。值得注意的是,在LINEMOD上,我们的方法和使用RGB-D输入的DenseFusion效果一样。

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群
CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群

论文链接:

https://arxiv.org/abs/1812.11788

Github主页:

https://zju3dv.github.io/pvnet/

论文代码:

https://github.com/zju3dv/pvnet

论文还开源了他们 用blender合成数据代码:

https://github.com/zju3dv/pvnet-rendering

Ref:

[1] Tekin, Bugra, Sudipta N. Sinha, and Pascal Fua. "Real-time seamless single shot 6d object pose prediction." CVPR. 2018.

[2] Wang, Chen, et al. "DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion." CVPR. 2019.

-The End-

将门 是一家 以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ,旗下涵盖 将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务 专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群 专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金 专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括 机器智能、物联网、自然人机交互、企业计算。 在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、 宽拓科技、 杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”:  bp@thejiangmen.com

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群     

点击右上角,把文章分享到朋友圈

CVPR 2019 | 浙大CAD&CG实验室提出PVNet,实时且效果超群  

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

点击“ ❀在看 ”,让更多朋友们看到吧~


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Flash第一步

Flash第一步

陈冰 / 清华大学出版社 / 2006-3 / 45.00元

《Flash第1步:ActionScript编程篇》(珍藏版)为《Flash第一步》的ActionScript编程篇,包含后4部分内容。第3部分为ActionScript篇,你将学会像一个软件设计师那样来思考问题,并掌握在Flash中进行程序开发工作所必须具备的重要知识,还将学会运用Flash完整的编程体系来完成从简单到复杂的各种编程任务。另外,在开发一个Flash应用过程中会涉及的各种其他Web......一起来看看 《Flash第一步》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具