@mShuaiZhao
2018-01-17T07:14:20.000000Z
字数 714
阅读 408
PaperReading
TextDetection
2018.01
motivation
字符检测的几个难点
场景因素,模糊和光照不均等等
有时字符和背景难以区分
字符自身有很多变化,多种字体,宽高比也不定
局部信息(character components)和全局信息(text region)都对text detection有用
methodology
基于VGG16,利用FCN
首先利用一个基于VGG16的FCN,有5个stage,得到text block detection的结果,这是一个pixel-wise的结果
然后利用MSER,对得到的block进行字符切割,得到character components
想象有一条直线,这条直线方向正确的时候,穿过最多的components,依次得到block的角度信息
将components划分为groups,groups内的components具有阈值之下的高度比和角度差
得到了多个groups之后,依据group内的components信息和block信息,得到group的最小bounding box
再使用一个FCN来检测得到character的centroid,依据得到的centroid,选出满足一定centroid数目并中心点大多在同一直线上的候选bounding box
最后再做一个标准的NMS,得到最后的结果,bounding box的置信度就是其内所有centroids的置信度之和。
缺点
对于低对比度,curvature的字符,光线反射的图片,相邻太近的text lines等效果不好