Rotation-Sensitive Regression for Oriented Scene Text Detection

华中科技大学白翔团队的工作,提出对场景文字检测中的分类和回归任务设计不同网络分支,以便解决二者特征图上的不兼容问题,从而提高整体的检测效果。

Problems

对于一个多方向文本检测器有两个主要任务:

  • 文本存在检测,是一个分类问题;
  • 带方向的文本框回归,是一个回归问题。

之前的研究对于两类问题都采用共享特征层的方法,然而,特征图的旋转不变性能够提升分类任务的性能,却对回归任意方向的文本框没有益处,后者需要保持对方向的敏感度。

因此,论文提出设计不同的网络分支,处理这个问题,即Rotation-sensitive Regression Detector (RRD),分类任务的特征具有旋转不变性,方向回归框任务的特征具有旋转敏感特征。如图 1 所示,两类特征图响应区域的不同:



Figure 1. Visualization of feature maps and results of baseline and RRD


Architectures

RRD 的结构如图2 所示:



RRD 同样受启发于 SSD, backbone 采用 VGG16,同时加入一些同 SSD 一致额外的层,其中的卷积操作换成 oriented response convolution。每一层的结果都会送入 RRD 中进行 dense prediction,对于每一个 default box 都会判断是否有文字,并且回归其相对偏移,最后所有结果进行 NMS 操作。

Dense prediction 分为两个分支,如图2 b所示,一个分支直接进行回归,另一个分支加入 oriented response pooling 后具有旋转不变性,再进行分类。

Rotation-Sensitive Regression

论文的 rotation-sensitive 主要是通过引入 ORN[2] 中的 active rotating filters (ARF)。

ARF 是通过 canonical filter 以及其旋转的克隆得到的。定义 canonical filter 为:$F_0 \in \mathcal{R}^{k \times k \times N}$,k 是核的大小,N 是旋转方向的个数。 $M_i(j)$ 和 $M_o(j)$ 分别代表第 j 个方向的输入和输出:
$$
M_o(j) = \sum_{n=0}^{N-1} F_j(n) * M_i(n), j= 0,\cdots,N-1
$$
$F_j(n)$ 表示 $F_j$ 的第 n 个方向的通道,实际中 N 设定为8。

Rotation-Invariant Classification

对 N 个特征图按照方向进行池化,选择最大的作为池化结果:
$$
M_{pooling} = \max_{k=0}^{N-1} M_{or}(k)
$$

Objecive Function



References

  • [1] Rotation-Sensitive Regression for Oriented Scene Text Detection [2018-CVPR] paper
  • [2] Oriented response net- works [2017-CVPR] paper
请作者吃酒!