@huanghaian 2020-11-18T05:54:14.000000Z 字数 4933 阅读 2856

mmdetection：Faster RCNN深入分析

mmdetection

0 摘要

做过或者了解过目标检测的朋友，我想第一个接触算法应该就是Faster RCNN了吧，这是一个非常主流的two-stage目标检测算法，深深的影响了目标检测算法的发展。对于Faster RCNN的解读随处可见，故本文主要是结合mmdet代码进行原理性分析，希望大家看完本文能对faster rcnn有深入的理解。

在阅读本文前你需要先阅读RPN解读章节，faster rcnn叫做two-stage检测器，原因是其包括一个区域提取网络RPN和roi refine网络RCNN，同时为了将RPN提取的不同大小的roi特征图组成batch输入到后面的rcnn中，在两者中间还插入了一个roipool层，可以保证任意大小特征图输入都可以变成指定大小输出。所有anchor-base的one stage算法都可以认为只有第二级RCNN网络(其实要看成第一级的RPN网络也是可以的)，并且RPN提取的roi对应的就是常说的anchor，从而将two stage中的roi refine网络变成了one stage中的anchor refine网络。

faster rcnn简要流程是：首先采用二分类RPN网络提取大量前后景roi特征图，然后通过roipool变成统一大小，最后将roi特征图输入到rcnn中进行roi的refine，得到优化后的bbox。

1 算法分析

其整体核心结构如下：
image.png-113.7kB

详细一点的话，如下所示：
image.png-231.8kB

图片来自https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

下面对每个部分进行深入分析。

1.1 backbone骨架

这部分和RPN网络重合，请看RPN算法解读部分文章。

1.2 RPN部分

RPN层的作用是基于预设值anchor进行二分类前后景提取和bbox回归，主要目的是为rcnn层输入高质量的后续bbbox，这部分内容请看RPN算法解读部分文章。

1.3 RCNN

RCNN部分和RPN模块非常类似，只不过处理的问题不一样而已。整个RCNN部分的配置如下所示：

roi_head=dict(
    type='StandardRoIHead',
    bbox_roi_extractor=dict(
        type='SingleRoIExtractor',
        roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
        out_channels=256,
        featmap_strides=[4, 8, 16, 32]),
    bbox_head=dict(
        type='Shared2FCBBoxHead',
        in_channels=256,
        fc_out_channels=1024,
        roi_feat_size=7,
        num_classes=80,
        bbox_coder=dict(
            type='DeltaXYWHBBoxCoder',
            target_means=[0., 0., 0., 0.],
            target_stds=[0.1, 0.1, 0.2, 0.2]),
        reg_class_agnostic=False,
        loss_cls=dict(
            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
        loss_bbox=dict(type='L1Loss', loss_weight=1.0))))

(1) rpn和rcnn中间数据转换流程

rpn_proposal=dict(
    nms_across_levels=False,
    nms_pre=12000,
    nms_post=2000,
    max_num=2000,
    nms_thr=0.7,
    min_bbox_size=0),

rcnn需要的输入数据来自rpn预测roi，故在运行rcnn模块前需要对rpn输出进行处理，配置如上，这个步骤其实就等价于rpn自身的前向推理流程。具体操作是可以看RPN算法解读的前向推理部分，其大概流程是：

遍历每个RPN输出层(其实就是1个)，对每一层的分类分值scores进行降序排列，保留topk=nms_pre个样本，分值越大越可能是正样本
此时就可以收集到所有层的所有样本，先过滤掉不满足min_bbox_size预测结果，然后统一进行nms即可，最好保留最多前nms_post个检测结果

此时假设可以得到(batch,2000,4)个候选roi了。

(2) roipool操作
上述可以得到(batch,num,4)个候选roi bbox，在特征图上面进行切割即可得到batchxnum个不同大小的roi特征图，但是这些roi特征图对于rcnn来说肯定不能是不同大小的，否则无法组成batch进行训练，故需要roi提取器，其有两个功能：利用roi坐标在特征图上面切割出对应区域特征；然后将该区域特征变成指定固定大小输出。该模块称为roipool，该操作非常简单，通过下面的可视化图即可理解：
image.png-119.8kB
假设左上是输入特征图，右上的蓝色框是roi，已经取整了。假设输出shape为2x2的统一大小，则左下是切割的示意图，实际上就是把5x7个块切割为2x2的块，第一个块是wh=(7//2,5//2)，第二个块是wh=(7-7//2,5-5//2),后面类似。最后在每个小块内部进行max操作即可。可以明显roi发现其存在两次非常严重的取整操作，第一次是将roi proposal值变成整数；第二次是切割时候。可想而知对于本身就是小物体的特征图而言，两次取整操作特征图会偏差很大，故在后续mask rcnn中提出了roiAlign操作。原论文中设置的指定输出大小是7x7。

(3) RCNN网络结构
将roipool操作得到的(batch,num,256,7,7)个roi特征图作为RCNN模块的输入即可。RCNN的head部分是Shared2FCBBoxHead，假设RPN阶段输出了1000个候选bbox，并且经过了roipool层统一变成了(batchx1000,256,7,7)，那么Shared2FCBBoxHead的意思是先把(batchx1000,256,7,7)变成(batchx1000,256x7x7),再经过2次fc层，然后在分成两个fc分支用于分类和roi refine回归，前两个fc层是共享权重的。分类分支shape=(batchx1000,cls_num+1)，回归分支shape=(batchx1000,4*num_class)(因为参数reg_class_agnostic=False)

这里有一个细节需要强调下：在原始faster rcnn中RCNN网络还包括了resnet的最后一个stage，也就是说resnet的stage0-stage2做为公共的基础网络部分，而stage3是在RCNN部分。为何作者将stage3作为fast RCNN独有网络，不作为基础网络？作者认为把stage3作为基础网络的话，网络会偏向于分类问题，并且imageNet预训练权重的加载更会加深特征的平移不变性，不利于bbox回归。但是由于考虑到代码通用性以及后续FPN模块的引入，现在的faster rcnn都没有这样做。

(4) 正负样本定义和采样
首先解释下rcnn层的输入参数：

def forward_train(self,
                  x,
                  img_metas,
                  proposal_list,
                  gt_bboxes,
                  gt_labels,
                  gt_bboxes_ignore=None,
                  gt_masks=None):

x是backbone输出的stride=16的特征图，img_metas是每张图片各自的属性，proposal_list就是RPN输出的roi，假设是(batch,1000,4)，后面几个都是关于gt bbox相关的数据。

RCNN算法要完成的任务是：基于RPN输出的proposal_list来回归出更好的bbox。此时可以发现RCNN算法其实和RPN思想非常类似，只不过RPN中学习目标是anchor和gt bbox的变换值，而RCNN模块可以认为proposal_list是稀疏的anchor，其学习目标是proposal_list和gt bbox的变换值。

既然proposal_list可以认为是anchor，那么正负样本定义和采样策略就不可少了

rcnn=dict(
    assigner=dict(
        type='MaxIoUAssigner',
        pos_iou_thr=0.5,
        neg_iou_thr=0.5,
        min_pos_iou=0.5,
        match_low_quality=False,
        ignore_iof_thr=-1),
    sampler=dict(
        type='RandomSampler',
        num=512,
        pos_fraction=0.25,
        neg_pos_ub=-1,
        add_gt_as_proposals=True),
    pos_weight=-1,
    debug=False))

其代码和RPN中的完全一样，只不过阈值不一样而已。其主要区别是：

由于rcnn head预测值是rpn head输出roi的refine，故rcnn head面对的anchor和gt bbox的iou会高于rpn head部分，anchor质量更高，neg_iou_thr阈值设置的就可以高一些
由于pos_iou_thr和neg_iou_thr设置都是0.5，那么忽略区域就没有了，因为rcnn head面对的都是高质量样本，可以不需要忽略区域
由于rcnn在网络训练前期，rpn无法输出大量高质量样本，故为了平衡和稳定rcnn训练过程，通常会对rcnn head部分添加gt bbox作为proposal
rcnn部分match_low_quality=False，原因是rcnn面对的正样本都是比较高质量的，没必要match_low_quality设置为True，因为其可能会导致低质量anchor匹配

通过正负样本定义和随机采样策略就可以对每个proposal确定其正负样本属性。

(5) loss计算
rcnn部分的bbox编解码流程和RPN完全相同，就不再描述了。假设得到(batch,1000,256x7x7)的矩阵，后面经过rcnn的fc head即可进行分类和回归了，其中分类采用的是ce loss，回归采用的是L1Loss。

1.4 推理流程

test_cfg = dict(
    rpn=dict(
        nms_across_levels=False,
        nms_pre=6000,
        nms_post=1000,
        max_num=1000,
        nms_thr=0.7,
        min_bbox_size=0),
    rcnn=dict(
        score_thr=0.05,
        nms=dict(type='nms', iou_threshold=0.5),
        max_per_img=100))

推理流程为：

(1) 对于单张图片输入到resnet中，输出1个特征图stride=16
(2) 对输出图经过rpn head，分别预测前后景和bbox坐标
(3) 采用rpn测试配置对预测结果进行解码，并且经过nms得到proposal_list
(4) 对每个proposal进行roipool操作，变成统一大小
(5) 组成batch输入到rcnn head进行类别分类和proposal refine回归
(6) 对预测结果再次进行nms操作得到优化后的最终bbox

2 总结

faster rcnn是经典的two-stage目标检测算法，其对rpn层提取的大量roi进行refine操作，可以得到精确的bbox。由于其优雅高效的实现，理解上也通俗易懂，故依然是目前的主流算法。对于初学者而言一开始接触就faster rcnn会被其复杂代码绕晕的，最好先把RPN思想彻底理解后再来看本算法，会轻松很多。当然在理解了faster rcnn后，对于后续的one-stage算法就更加容易了。