@mShuaiZhao 2018-01-17T07:14:20.000000Z 字数 714 阅读 528

Multi-Oriented Text Detection with Fully Convolutional Networks

PaperReading TextDetection 2018.01

motivation
- 字符检测的几个难点
  - 场景因素，模糊和光照不均等等
  - 有时字符和背景难以区分
  - 字符自身有很多变化，多种字体，宽高比也不定
局部信息（character components）和全局信息（text region）都对text detection有用
methodology

基于VGG16，利用FCN

首先利用一个基于VGG16的FCN，有5个stage，得到text block detection的结果，这是一个pixel-wise的结果

然后利用MSER，对得到的block进行字符切割，得到character components
想象有一条直线，这条直线方向正确的时候，穿过最多的components，依次得到block的角度信息

将components划分为groups，groups内的components具有阈值之下的高度比和角度差

得到了多个groups之后，依据group内的components信息和block信息，得到group的最小bounding box

再使用一个FCN来检测得到character的centroid，依据得到的centroid，选出满足一定centroid数目并中心点大多在同一直线上的候选bounding box

最后再做一个标准的NMS，得到最后的结果，bounding box的置信度就是其内所有centroids的置信度之和。
缺点

对于低对比度，curvature的字符，光线反射的图片，相邻太近的text lines等效果不好

内容目录

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注