Multi-scale FCN with Cascaded Instance Aware Segmentation for Arbitrary Oriented Word Spotting In The Wild

论文基于 FCN 分割的方法,结合 coarse-to-fine 的思想,先得到 text regions,再进行实例级分割得到文本框。

Pipeline

首先,使用 multi-scale FCN 提取图像中的 text regions,对于每个 text region 进行裁剪,依次送进 TL-CNN 中得到其所有的 text center lines,再依次将 text center line 和裁剪的原图合并送进 IA-CNN 进行分割,得到最终的文本框。

Architecture

Mutil-scale FCN 简单来说,就是送进网络训练的图像尺寸不一样,最后把所有的结果进行联合,每个尺寸的损失值也要进行计算,但是不同分支是共用卷积层的。

Multi-FCN architecture

Instance segmentation 主要包括 TL-CNN 和 IA-CNN,其方法如下:

Method of instance segmentation

My Thoughts

  • 想法有点类似于 Faster RCNN 的两阶段处理,只不过这里都是用 FCN 来分割,后来的许多方法是基于 Mask RCNN,其主要思路也是先粗后细。
  • Multi-scale 的做法,是不是可以在数据预处理进行 scale 的操作来替代,以减少网络训练的复杂度。
  • 论文里提到几个有趣的观察,text block 召回的 false positive,text center line 可以过滤掉。还有就是有些字符的特征很难和背景噪声区分,如“I”,但并不意味字符特征就没用。

References

  • [1] [2017-CVPR] Multi-scale FCN with Cascaded Instance Aware Segmentation for Arbitrary Oriented Word Spotting In The Wild paper
请作者吃酒!