Accurate text localization in natural image with cascaded convolutional text network

论文采用 coarse-to-fine 的思想,采用两个级联的网络,对于难以区分开不同文本实例的 text region,进行精细识别,得到更准确的结果。

Motivation

基于 bottom up 思路的文字检测流程:

  • 用滑动窗口或 MSER/SWT 等方法提取候选区域;
  • 字符级分类器(SVM,CNN等);
  • 后处理,如文本线生成,字符聚类,字符分组,单词切割等。

然而这种方法存在一些缺点:

  • 使用低级特征,对于光照不均匀,形变较大等目标无法有效提出候选区域;
  • 候选区域很多,分类效率低;
  • 后处理往往比较复杂,规则多,而且不通用;
  • 多步流程容易造成误差累积,导致性能下降。

因此,作者采用 top-down 的思路,直接用 CNN 预测 text region 和 text center linev area。

Method

Pipeline

算法流程如下:

Architecture

Coarse text network 和 Fine text network 采用 VGG16 的网络结构,并进行了如下修改:

  • 卷积核的尺寸变为多形状,并且是并行的。
  • 去掉全连接层,加入两个卷积层。
  • 多个层的特征进行融合。
  • Figure 2. Architecture

对于 coarse text network,只用了 text region 的监督信息。而 fine text network 用了 text line area(text region) 和 text center line area的监督信息,两者区别如 Fig3 所示。

Text center line area 的中心线处为1,逐渐向上下扩展,用高斯分布逐渐递减,半径为整个 bbox 高度的 1/4。因此,text center line area 实际上是包含了文本线的位置和文本块的高度信息。

Figure 3. Central line area (middle) and text line area (right)

My Thoughts

  • 采用 coarse-to-fine 思想,使用两个网络,参数变多,中间也要设定规则判断是否要输入下个网络,计算流程复杂。
  • 提出的 text center line area 监督信息,使用高斯渐变标注高度信息,很有创新,能解决一些分割不开的情况。

References

  • [1] [2016—CVPR] Accurate text localization in natural image with cascaded convolutional text network paper
请作者吃酒!