Geometry-based Distance Decomposition for Monocular 3D Object Detection
研究动机
3D目标检测的核心问题是对深度进行估计,已有的深度估计方法通常都是将深度作为一个单一的参数进行回归。作者提出了一种将深度拆分成物理高度与PCL的方式。使得模型更具有解释性、实现起来更简单、更具有鲁棒性。
核心思路
将深度拆分成物理高度与PCL,通过公式来计算与物体中心的距离。当目标出现遮挡或者残缺时,相比于直接预测目标的3D框,预测目标的高度有更好的准确率。
网络模型
采用ResNet-50和FPN作为Backbone,从Backbone的P2、P3、P4、P5层特征图来获取ROI。之后根据不同的head,生成目标的种类和置信度和目标的2D检测框。生成3D目标在2D上的投影中心和3D目标框的大小,最后是目标的朝向和距离。
损失函数