@mShuaiZhao
2018-02-02T02:57:51.000000Z
字数 1084
阅读 348
PaperReading
TextDetection
2018.02
这是一篇2017年11月份的paper。
这是object detection领域two-stage detector在速度方面对one-stage detector的反击...
two-stage detector : Fast R-CNN、Faster R-CNN、R-FCN...
one-stage detector : SSD、YOLO、YOLOv2、DeNet...
two-stage detector相对而言,精度较高一些,速度上当然不能与one-stage detector相比。
这篇paper有感于过去的object detector,例如Faster R-CNN和R-FCN在backbone network之后都紧跟着一个heavy-head的结构设计,所以提出了一种light-head结构的detector,以期在速度和精度方面都取得很好的效果。
basic feature extractor
Xception-like的网络结构。
Xception是谷歌在Inception之上提出来的一种网络架构,结合了ResNet和separable convolution。
thin feature map
Loght-Head R-CNN最后使用的feature map通道更少,在ResNet-101的stage 5阶段采用了large separable convolution。这么做可以起到类似1x1 convolution的效果,减小了计算量。而且在实验中发现,采用了separable convolution之后,mAP会有0.7个点左右的提升。
thin feature map是计算量减少的主因。
R-CNN subnet
一个全连接层接classification和location regression,这也是为什么称为Light-Head的原因。
RPN
这部分不是很清楚,要追寻之前的paper。
精度和速度都有极大的提升。
single-model的结果,mAP比以往的方法最多高了有2.0个点还多,达到了41.5。
速度更是超过以往的方法,达到了102fps。
感觉这篇文章,是对最新的一些方法的整合应用。其实创新的东西并不是非常多。说明了紧跟科研潮流前线的重要性。