@Team 2018-11-30T09:50:37.000000Z 字数 1795 阅读 2050

干货|（DL~4）对象定位和检测

石文华

文章来自：https://leonardoaraujosantos.gitbooks.io
原文作者：Leonardo Araujo dos Santos

干货|（DL~4）对象定位和检测

1、介绍

在本章中，我们将学习如何使用卷积神经网络来定位和检测图像上的对象。

image.png-202.6kB
RCNN
Fast RCNN
Faster RCNN
YOLO
SSD

2、使用回归定位对象

回归返回的是数值数据（实数）而不是类别数据，在例子中，将返回与边界框相关的4个数字（x0，y0，width，height）。使用图像以及它的真实边界框训练目标检测系统，并使用L2距离计算预测边界框与真实边界框之间的损失。

image.png-204kB
通常，要做的是在最后一个卷积层上附加另一个全连接层（获取也可以使用全局平均池化层）
image.png-145.2kB
这样的话只能用于检测一个对象。

3、比较边界框预测的准确率

基本上我们需要比较预测框和真实边界框之间的交并比（IoU）是否大于某个阈值（ex> 0.5）
image.png-19.2kB

4、RCNN

RCNN（Regions + CNN）是一种依赖于外部区域提议系统的方法
image.png-176.6kB
RCNN的问题在于它永远不会变得很快，其训练网络的步骤如下：
1、采取预先训练的imagenet cnn模型（Alexnet，vgg，googleNet,ResNet）
2、使用需要检测的对象+“无对象”类重新训练最后一个全连接层
3、获取所有提议（= ~2000 p / image），调整它们的大小以匹配cnn输入，然后保存到磁盘。
4、训练SVM模型，在对象和背景之间进行分类（每个类一个SVM）
5、边界框回归：训练一个线性回归分类器，它将输出一些校正因子
image.png-148.1kB
image.png-165.7kB

5、Fast RCNN

Fast RCNN方法从一些外部系统（选择性搜索）接收区域提议。此区域提议的特征图将发送到一个层（Roi Pooling），该层将调整所有区域为固定大小。这是因为全连接层所有输入向量需要具有相同的大小。
image.png-244.4kB
区域提议示例，边界框= [r，x1，y1，x2，y2]
image.png-94.6kB
image.png-127.7kB

Roi Pooling层

image.png-71.2kB
它的作用主要是使不同的区域提议的特征图统一成一样的大小，作为全连接层的输入。因为全连接层网络定义好之后，它的输入维度已经确认，不能改变。
image.png-79.9kB
ROI层的输入将是提议区域最后的卷积层激活特征图。例如，考虑以下输入图像及其区域提议。
输入图像：

image.png-212.4kB
两题提议区域:
image.png-106.4kB
最后一个卷积层的激活（例如：conv5）:
image.png-176.3kB
对于每个卷积激活（来自上图的每个单元），Roi Pooling层将调整大小，区域提议（红色）将达到全连接层上预期的相同分辨率。例如，将所选单元格视为绿色。
输出将是：
image.png-34.8kB
image.png-44.2kB

6、Faster RCNN

image.png-68.6kB
主要思想是使用深层的一些特征图来推断区域提议。
Faster RCNN由两个模块组成。
1、RPN网络（区域提议网络）：根据深层的特征图给出一组矩形
2、Fast-RCNN Roi Pooling层：对每个提议的区域进行分类，并优化提议出来的区域的位置。

区域提议网络

1、获得训练过（即imagenet）的卷积神经网络
2、使用使用训练过的模型的卷积层输出的特征图（feature map）
3、训练区域建议网络，该网络将决定图像上是否存在对象，并且还给出框的位置
4、使用ROI池层将所有提议区域重新调整为固定大小后，发送到全连接层以继续分类。
image.png-328.7kB
image.png-87.7kB
基本上，RPN在feature map上滑动一个小窗口（3x3），将窗口下的特征图分类为对象或非对象，并给出一些边界框位置。
对于每个滑动窗口中心，它创建固定的k锚箱，并将这些箱子分类为对象与否。
image.png-45.5kB

Faster RCNN训练

在论文中，每个网络都是单独训练的，但我们也可以联合训练。只考虑模型有4个损失。
1、RPN分类（对象或非对象）
2、RPN边界框提议
3、Fast RCNN分类（普通对象分类）
4、Faster RCNN边界框回归（改进以前的区域框提案）
image.png-248kB

Faster RCNN结果

resnet 101层模型作为特征提取的Faster RCNN结果如下：
image.png-105.5kB

Faster RCNN图

这个图表代表了使用VGG16的Faster RCNN的完整结构，这里找到了一个github项目。它使用一个名为Chainer的框架，它是一个仅使用python（有时是cython）的完整框架。
image.png-560.2kB