0%

MonoRCNN

Geometry-based Distance Decomposition for Monocular 3D Object Detection

研究动机

​ 3D目标检测的核心问题是对深度进行估计,已有的深度估计方法通常都是将深度作为一个单一的参数进行回归。作者提出了一种将深度拆分成物理高度与PCL的方式。使得模型更具有解释性、实现起来更简单、更具有鲁棒性。

核心思路

​ 将深度拆分成物理高度与PCL,通过公式Z=fHhZ=\frac{fH}{h}来计算与物体中心的距离。当目标出现遮挡或者残缺时,相比于直接预测目标的3D框,预测目标的高度有更好的准确率。

网络模型

采用ResNet-50和FPN作为Backbone,从Backbone的P2、P3、P4、P5层特征图来获取ROI。之后根据不同的head,生成目标的种类clscls和置信度scorescore和目标的2D检测框b=(x1,y1,x2,y2)b=(x_1,y_1,x_2,y_2)。生成3D目标在2D上的投影中心p=(p1,p2)p=(p_1,p_2)和3D目标框的大小(W,H,L)(W,H,L),最后是目标的朝向和距离。

损失函数