Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

栏目: 编程工具 · 发布时间: 7年前

内容简介：随着计算机视觉的发展，2D目标检测在精度和速度方面已经得到了巨大的提升，并在各个领域取得了令人瞩目的成绩。但2D检测却忽视了物体的三维信息。目前的3D形状预测研究主要基于合成数据集和当个目标的预测。为了解决这一问题，来自Facebook的研究人员提出了

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！ From: FAIR 编译: T.R

随着计算机视觉的发展，2D目标检测在精度和速度方面已经得到了巨大的提升，并在各个领域取得了令人瞩目的成绩。但2D检测却忽视了物体的三维信息。目前的3D形状预测研究主要基于合成数据集和当个目标的预测。

为了解决这一问题，来自Facebook的研究人员提出了 Mesh R-CNN模型 ，可以从单张输入图像中检测不同物体，并预测出每个物体对应的三角网格，将二维目标检测的能力成功地拓展到了三维目标检测和形状预测。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

三维目标检测与形状预测

近年来深度学习在三维形状理解领域有了很大的提升，研究人员们利用神经网络对体素、点云、网格等三维表示进行学习，推进了三维世界表示和理解的发展。但这些技术主要基于合成数据集进行开发和研究，缺乏复杂的形状和条件，相比二维图像的大型数据集还远远不够。

研究人员认为三维研究领域

需要开发新的识别与理解系统，可以在非限制环境、复杂形状、多物体以及光照条件变化的情境下稳定运行

。

为了实现这一目标，研究人员开发了 2D感知和3D形状预测的方法 ，可以在单张RGB输入的情况下实现目标检测、实例分割以及目标3D三角网格预测的功能。这一方法 基于Mask R-CNN改进而来 ，增加了网格预测分支来输出高分辨的目标三角网格。

这种方法预测出的网格不仅能够捕捉不同的3D结构中，同时可以适用于不同的几何复杂度。Mesh R-CNN克服了先前固定网格模板的形态预测方法，利用多种三维表示方法完成预测。

Mesh R-CNN 首先预测出目标粗糙的体素、随后转换为网格并利用精确的网格预测分支进行优化，最后实现了对于任意几何结构的精细预测。

Mesh R-CNN

这一研究的目标是通过单张图像输入，对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格，并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上，研究人员改进并提出了新的架构。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

这一模型主要分为三个部分，包括了预测box和mask的检测分支、预测体素的分支和mesh优化分支。受到RoIAlign的启发，研究人员在网格预测中加入了VertAlign将输入图像与特征进行对应。

体素预测分支与box/mask预测分支的输入相同，都使用了与图像对齐的特征。模型最后将目标检测、语义分割损失与网格预测损失结合起一同对网络进行端到端的训练和优化。

Mesh R-CNN的核心是 网格预测器

，它将对齐的图像特征进行输入，并输出目标的三维网格。与二维图像的处理相似，研究人员同时也维护了特征在不同阶段的对齐，包括区域和体素对应的对齐操作

(RoIAlign和VertAlign)

，并捕捉图像中所有实例的3D形状。

这意味着每一个预测出的网格都具有自己的拓扑结构 (包括网格种类、一定数量的顶点、边和面) 以及几何形状。这一模型可以预测不同形状和拓扑结构的网格。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

模型的体素分支将针对每一个检测到的物体预测栅格在空间中的占据概率，并得到三维模型最终的形状结果。可以将其视为3D版的Mask R-CNN，利用GxGxG的栅格在三维空间中预测出目标的外形。

同样和 Mask R-CNN 类似的是，对于体素的预测同样适用了来自RoIAlign的特征，并得到G个通道特征，其中的体素表示了输入位置的占据分数，在实验中研究人员使用了24x24x24大小的体素表示。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

随后 立方体化方法(Cubify) 将3D体素的占据概率转换为三角网格模型。它将输入的占据概率二进制输出，每一个体素占据点被一个立方体的三角网格代替，包含了8个顶点、18条边和12个面。相邻立方体共享边，紧邻的面被消除，最终得到与体素形态学相同的网格表示。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

最后需要将得到的网格进一步优化以获取更为精确的结果。与很多体素/网格的优化方法相同，首先需要将顶点与图像特征对齐，随后利用图网络卷积的方法在每一条mesh边上对信息进行传播，最后将得到的结果用于更新每一个顶点的位置。

上面三个步骤在优化过程中不断进行。最后为了给mesh优化分支建立损失，研究人员在网格表面进行稠密的采样得到点云来计算网格优化分支的损失。

结果

最终研究人员在ShapeNet 数据集和Pix3D数据集上验证了这种方法的有效性。可以看到新提出的方法可以有效地预测 带有孔洞的物体 。

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

同时对于 复杂环境中的三维物体 也有良好的预测效果：

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

文章附录里给出了包括立方体化、网格采样、消融性分析以及与各种方法的比较，如果想要了解更多的实现细节，请参看：

https://arxiv.org/pdf/1906.02739.pdf

ref:

paper: https://arxiv.org/pdf/1906.02739.pdf

logopicture：https://dribbble.com/shots/1143435-Pikachu-Polymon

-The End-

将门是一家以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在三年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

Facebook研究员提出Mesh R-CNN，向三维进击的目标检测！

点击右上角，把文章分享到朋友圈

将门创投

让创新获得认可！

微信：thejiangmen

bp@thejiangmen.com

点击“ ❀在看 ”，让更多朋友们看到吧~

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

C语言的科学和艺术

罗伯茨 / 翁惠玉 / 机械工业出版社 / 2005-3 / 55.00元

《C语言的科学和艺术》是计算机科学的经典教材，介绍了计算机科学的基础知识和程序设计的专门知识。《C语言的科学和艺术》以介绍ANSI C为主线，不仅涵盖C语言的基本知识，而且介绍了软件工程技术以及如何应用良好的程序设计风格进行开发等内容。《C语言的科学和艺术》采用了库函数的方法，强调抽象的原则，详细阐述了库和模块化开发。此外，《C语言的科学和艺术》还利用大量实例讲述解决问题的全过程，对开发过程中常见......一起来看看《C语言的科学和艺术》这本书的介绍吧!

码农工具