[关闭]
@snowying 2018-08-28T12:07:01.000000Z 字数 2735 阅读 2020

Joint 3D Proposal Generation and Object Detection from View Aggregation

目前kitti网站上排名第一的方法,结合了图像和lidar,作者是来自滑铁卢大学的Jason Ku, Melissa Mozifian等

摘要:

AVOD(Aggregate View Object Detection),运用了雷达点和RGB图像来生成特征,生成的特征被两个子网络分享:RPN网络和第二阶段的检测网络。

1.引言

3D目标检测难度高于2D原因在于:一是3D数据的分辨率不高,并且随着距离的增加,分辨率降低;二是3D目标检测需要估计bbox的方向。

3D目标检测也像2D一样依赖于RPN的效果。将RPN应用到3D是很有挑战的:2D图像是密集的和高分辨率的,一个目标在特征图上占几个像素,但是点云的前视图和俯视图(BEV)都是稀疏的和低分辨率的,还有目标很小的情况。论文中提出AVOD来解决这些问题。

特征提取器和RPN结合,从不同的输入模式来提取RPN结果,对小目标更有效。

2.相关工作(省略)

3.AVOD模型结构

此处输入图片的描述

图中蓝色的代表特征提取过程,粉色的代表RPN过程,绿色的代表第二阶段的检测网络。

论文的方法是从雷达俯视图(BEV)和RGB图像来生成特征图。然后特征图用于RPN生成没有方向的region proposals,然后再传递给检测网络进行维度精简,方向估计和分类。

A. 从点云和图像上提取特征图

点云输入是6通道的BEV map,采取了MV3D的方法,BEV map是用0.1m分辨率的voxel grid来表示的。范围是[-40,40]×[0, 70],跟camera的范围一致。BEV map前5个通道是由grid里面的点的最大高度指编码得到,grid的选取是在Z轴[0, 2.5]范围内平均选取;第6个通道是voxel grid点密度信息,公式

B. 特征提取

此处输入图片的描述

RGB和BEV视角特征提取网络结构相同,如上图所示,是一种full-resolution的方法,包括encoder和decoder两个步骤。encoder是在VGG-16基础上做一些改动,主要是将通道数减半,在conv-4层删减了网络。encoder网络输入(image或者BEV)大小是,输出的特征图F大小为。在KITTI数据集中的BEV数据中行人占有的面积是0.8 ×0.6米,在0.1米分辨率的BEV数据中占有8×6个像素,下采样8倍以后,在特征图中这些小目标占有的像素会小于一个。受FPN(Feature Pyramid Network)的启发,提出了采用decoder对特征图进行上采样到跟原图像大小一致(),并且保持相同的运行速度。如上图所示,上采样采用的是反卷积的方法。

具体实现是沿着红色箭头的方向,把encoder的结果传递给相应的decoder层,中间的特征图F先经过上采样,跟红色箭头起始的encoder层特征进行连接(如图中黑框中所示),再接一个3×3的卷积层进行特征融合,重复三次这样的计算,decoder的最后一层就得到了一个全分辨率的特征图,类似FCN。

C. 多模型融合的RPN

此处输入图片的描述

如上图所示,3D的RPN结构与2D的相似,其中的anchor boxes由中心点的坐标与对应的宽度组成。是以0.5米的间距采样,基于传感器高于地面的高度。anchor的维度是由每个类别的训练样本的聚类结果来决定的。

从多视角的crop和resize操作提取特征crop的做法是:给一个3维的anchor时,将anchor投影到BEV和图像的特征图上,然后相关的区域就会被用来提取多视角(BEV和image)feature crop,然后双线性调整到3×3大小来获取相同长度的特征向量。

通过1×1卷积层降维:如果保存100k个anchors的feature crop,就会占用很大的GPU内存,并且增加计算需求,因此就采用了1×1的卷积核,作用于输出的特征图,公式是
其中是特征图的像素值,是学习的权重,是偏置。这种1×1的卷积可以看作是卷积空间严格现行无关的,是非线性的激活函数。这种操作减少了特征维度并且保留了有用的信息。相当于把特征图的多个channel变成了一个。

3D Proposal 生成:两种视角的feature crops长度相同,然后通过取均值的方式融合,两个任务分支256维的全连接层用融合的feature crops回归得到建议框和目标/背景分数值,通过计算得到3D建议框,3D box回归使用了smooth L1损失函数,目标分数值采用了交叉熵损失函数。在计算回归损失函数时忽略背景的anchors,背景的anchors是通过计算BEV中anchors和ground truth boxes之间的2D的IoU决定的。

对于汽车检测来说,IoU小于0.3被认为是背景,大于0.5就认为是目标的anchor,对于行人和骑自行车的人,阈值减少到0.45。为了减少多余的建议框,采用2D的非极大值抑制(non-maximum suppression,NMS)来保证在训练时BEV上IoU阈值是0.8时,有1024个建议框。在预测时,汽车目标有300个建议框,行人和骑自行车的人有1024个建议框。

D. 第二阶段的检测网络

3D Bounding Box编码:用四个corners和两个高度值来编码bounding box,如C中图所示,两个高度值表示最高和最低的corner的距地面的高度,将参数降低到了10维。

明确的方向向量回归:通过计算,确定bounding box的方向,通过回归得到方向向量。

实现最终的检测:采用和RPN相似的方法,输入是特征crops,是通过将建议框投影到两个输入视角得到的。由于建议框的数量大大的小于anchors的数量,使用最原始的特征图(深度是D'=35)来生成特征crops。两个视角的crops resize到7×7然后通过像素平均计算进行融合,然后接3个大小是2048的全连接层,得到输出的box regression,方向估计和分类。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注