TextContourNet

TextContourNet 利用实例级别的场景文字的边界轮廓信息,帮助提高文字检测器的能力。

Text Contour

这里的文本轮廓不是语义级别的,是针对每个文本实例。轮廓可以由边界框来生成,论文中使用一种平滑的轮廓信息来进行训练,其生成公式如下所示,其中 $S_{contour}$ 表示边界框上的像素点集合。

Architecture

论文主要想论证,引入轮廓信息能够帮助常规的文本检测器提高检测效果。选用 EAST 模型作为基础文本检测器。并设计了几种不同的引入方法。

Auxiliary TextContourNet,将 contour task 作为 auxiliary loss。

Cascade TextContourNet 设计两种方案。第一种,两个分支不共享 encoder 模块,将得到的轮廓结果和原图拼接在一起,再进行检测。

第二种就是共享 encoder 模块,将得到的轮廓结果和检测分支的特征拼接在一起,再进行检测。

最后的实验结果表明,Cascade 模式下共享 encoder 的效果是最好的,可能的原因是在两种损失的联合下,encoder 部分训练得更好,可以再补充一个实验证明一下,即共享 encoder 模块,将得到的轮廓结果和原图拼接,进行检测。

My Thoughts

  • 论文中提到的 Text Contour 其实和 Text Border 的概念是类似,早有工作将 border 信息引入场景文字检测中,确实发现有效果。
  • contour ground truth 采用平滑的方式,想法不错。
  • 利用分割得到一些辅助信息,然后和检测分支拼接,帮助提高检测效果。有许多工作进行尝试,如文献[3]中,通过分割得到 text/non-text map,来消除背景噪声。文献[2]提取 text center line 再和原图拼接,进行检测,不过它是 crop 每个 text regions 进行的,比较繁琐。

References

  • [1] [2018]TextContourNet: a Flexible and Effective Framework for Improving Scene Text Detection Architecture with a Multi-task Cascade paper
  • [2] [2017-CVPR] Multi-scale FCN with Cascaded Instance Aware Segmentation for Arbitrary Oriented Word Spotting In The Wild paper
  • [3] [2017-ICCV] Single shot text detector with regional attention paper code
请作者吃酒!