[关闭]
@mShuaiZhao 2018-01-17T07:14:20.000000Z 字数 714 阅读 408

Multi-Oriented Text Detection with Fully Convolutional Networks

PaperReading TextDetection 2018.01


  1. motivation

    • 字符检测的几个难点

      • 场景因素,模糊和光照不均等等

      • 有时字符和背景难以区分

      • 字符自身有很多变化,多种字体,宽高比也不定

    局部信息(character components)和全局信息(text region)都对text detection有用

  2. methodology

    基于VGG16,利用FCN

    首先利用一个基于VGG16的FCN,有5个stage,得到text block detection的结果,这是一个pixel-wise的结果

    然后利用MSER,对得到的block进行字符切割,得到character components
    想象有一条直线,这条直线方向正确的时候,穿过最多的components,依次得到block的角度信息

    将components划分为groups,groups内的components具有阈值之下的高度比和角度差

    得到了多个groups之后,依据group内的components信息和block信息,得到group的最小bounding box

    再使用一个FCN来检测得到character的centroid,依据得到的centroid,选出满足一定centroid数目并中心点大多在同一直线上的候选bounding box

    最后再做一个标准的NMS,得到最后的结果,bounding box的置信度就是其内所有centroids的置信度之和。

  3. 缺点

    对于低对比度,curvature的字符,光线反射的图片,相邻太近的text lines等效果不好

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注