Self-organized Text Detection with Minimal Post-processing via Border Learning

论文提出了基于分割的文本行级别的检测算法,通过引入 text border,再经过极少的后处理操作就能得到文本框。

Motivation

根据检测单元的不同,相关算法可以分为:

  • component detection:检测字符的一部分,再通过后处理连成检测框。
  • character detection:字符是单词的最小组成单元。
  • word detection:单词是常用的标准。
  • line detection:符合人类的阅读习惯。
  • region detection:能够排除很多 fasle positive。

其中,component/character 检测可划分为 bottom-up 的方法,而 region 检测为 up-down 的方法。通常,word/line 层次的检测框是想要的最终的结果,那么,直接把候选框就定为 word/line 级别则更方便。另外,现在许多基于分割的方法,后处理的操作过于复杂,且不是端到端的训练。因此,论文对于每个像素,进行 text,non-text 和 border 预测,最后通过简单的处理操作就能得到文本框。

Method

Architecture

算法采用自行设计的 FCN,最后输出 text map, non-text map 和 border map。

Figure 2. Fully convolutional networks used in the proposed method. Left: single resolution FCN. Right: multi-resolution FCN.


#### Decoder

得到最终的概率图后,先根据 text/non-text 得到 connected components,然后使用训练时 border c 的参数放大,得到检测框,具体步骤如下:

My Thoughts

  • 论文发现仅依靠 text region 是不足以区分邻近的实例。指出了两个重要问题:why are line-level annotations not sufficient?what can be done to resolve this problem?许多基于分割的方法,都在分析解决这两个问题。
  • border 确实是个好想法,能把帮助分开不同文本实例,而且后处理操作也简单,同样有篇利用 border 信息的论文[2]。
  • 模型的训练数据是作者们提出的 PPT dataset,但是在 ICDAR 数据上进行训练时,没有讲清楚如何得到 border 标注信息。
  • 另外,需要注意的是,论文里的实验都是基于文本行级别进行的。

References

  • [1] [2017-ICCV] Self-organized Text Detection with Minimal Post-processing via Border Learning paper code
  • [2] [2017-ICIP] WordFence: Text Detection in Natural Images with Border Awareness paper
请作者吃酒!