计算机视觉研究院专栏
作者:Edison_G
在3D目标检测挑战赛中,华为诺亚方舟实验室与HUAWEI Octopus自动驾驶云服务联合团队Noah CV Lab&Octopus,取得了3D detection track第一名。华为汽车是由华为公司生产的新能源智能汽车。自动驾驶中的目标检测怎么做到的呢?
3D目标检测
随着two-stages的Faster-RCNN和one-stage的Yolo&SSD的出现,2D目标检测达到了空前的高度,各种新的方法不断涌现,但是在无人驾驶、机器人等应用场景下,普通2D检测并不能提供感知环境所需要的全部信息,2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度,但是在真实的三维世界中,物体都是有三维形状的,大部分应用都需要有目标物体的长宽高还有偏转角等信息。
例如下图中,在自动驾驶场景下,需要从图像中提供目标物体三维大小及旋转角度等指标,在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。
目前3D目标检测正处于高速发展时期,目前主要是综合利用单目相机、双目相机、多线激光雷达来进行3D目标检测,从目前成本上讲,激光雷达>双目相机>单目相机,从目前的准确率上讲,激光雷达>双目相机>单目相机。但是随着激光雷达的不断产业化发展,成本在不断降低,目前也出现一些使用单目相机加线数较少的激光雷达进行综合使用的技术方案。
针对RODNet的网络结构,研究者实现了基于[Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In European conference on computer vision, pages 483–499]和[Mingmin Zhao, Tianhong Li, Mohammad Abu Alsheikh, Yonglong Tian, Hang Zhao, Antonio Torralba, and Dina Katabi. Through-wall human pose estimation using radio signals. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7356–7365]的三维卷积自编码器网络。考虑到区分不同目标所需的时间长度不同,在RODNet中提出了灵感来自spatial inception[Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition]的temporal inception卷积层。
RODNet Architectur
在定义了OLS之后,提出了一个基于位置的NMS(L-NMS),其过程可以总结如下:
1)Get all the peaks in all C channels in ConfMaps within a
3 × 3 window as a peak set P = {pn}
2)Pick the peak p ∗ ∈ P with the highest confidence and remove
it from the peak set. Calculate OLS with each of the rest peaks pi ,
where pi≠p∗
3)If OLS between p∗ and pi is greater than a threshold, remove pi
from the peak set
4)Repeat Steps 2 and 3 until the peak set becomes empty
CRUW datase收集
数据分布
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文下载 | 回复“ROD”获取论文