Scene Text Detection via Holistic, Multi-Channel Prediction

文字区域具有很强的边缘特征,因此论文修改 HED 对图像进行密集预测,输出 text region map, charcter map 以及 linking orientation map,最后融合三个 feature map 生成文本框。

Motivation

场景文字检测中,简单进行 text/non-text 分割是不够充分的,有许多文本行距离很近,不能够完全的分开。因此,作者引入更多的监督信息,如字符的位置,大小以及连接方向,最后通过图分割(graph partition)得到文本线(text lines)。

Method

Pipeline

通过模型得到 text region map,character map,linking orientation map。

Figure 1. Pipeline of the proposed algorithm. (a) Original image. (b) Prediction maps. From left to right: text region map, character map and linking orientation map. (c) Detections.


每个 text region 上的 character 作为顶点,character 之间的相似性作为边,构建图模型,用最大生成求最小割,得到每个文本线。相似性包括空间相似性和方向相似性。空间相似性要求同一个文本实例间的 character 距离相近。方向相似性要求每两个 character 形成的直线方向与 linking orientation map 预测的方向接近。最后,将五个层的预测图经过 1*1 的卷积得到 3 个 maps,跟 ground Truth 计算损失值。

Architecture

Figure 2. Network architecture of the proposed algorithm

网络的 Stage1~Stage 5 是 VGG16 的前五层,每个 stage 接一个 side-output 输出 3 个 response map,将 stage2~5 后面接 deconvolution 得到原图大小尺寸的预测图。

My Thoughts

  • 论文提出的后处理的方法主要是为了得到文本线,文本线也是可以直接预测的,再结合一些方法,就不用如此复杂的后处理了。
  • 论文中提到下一步可能会预测 character shapes 的二值掩码,能够有利于后续的识别步骤。

References

  • [1] [2016] Scene Text Detection via Holistic, Multi-Channel Prediction paper
请作者吃酒!