Towards end-to-end text spotting with convolutional recurrent neural networks

论文提出基于 Faster RCNN 和 RNN 的一个 end2end 场景文字识别网络。

通常,场景文字识别任务会被分解成两个子任务:text detection 和 word recongnition。对于一个 end2end 的识别系统,如果仍拆成多个部分处理,各部分的错误会不断积累,影响整体的正确率。

Scene text spotting 则将结合两个任务形成一个 end2end 的网络。这样做有几点好处,第一,text detection 和 word recongnition 可以共用特征层,节省处理的时间;第二,两个任务之间能够相互促进效果提升。

Archietectrue



Figure 1. Model overview


Figure 1 是整个网络的架构图,可以五个部分:

  • CNN:使用 VGG16 提取图片的 feature map;
  • Text Proposal Network:其实就是 RPN 网络,根据文本形状特征,多设置了几类 anchors;
  • Region Feature Encoder: 用一个 LSTM 网络进行 RoI Pooling;
  • Text Detection Network:跟前面的 TPN 一样,结果中的 bounding box offsets 送回到 RFE 中;
  • Text Recognition Network: 进行 word recongnition。

Region Feature Encoder

在 Faster RCNN 中是将 feature map 池化成固定的大小,然而,文本中单词长度变化很大,会造成严重的扭曲。



Figure 2. Region Features Encoder (RFE)


如 figure 2 所示,RFE 使用 LSTM 编码任意大小的 RoI 特征。假设 RoI 的大小为 $h \times w$, 采用 spatial maxpooling 将其大小变为 $H \times \min(W_{max}, 2Hw/h)$,其中 H 是固定的。那么 RoI 特征记为 $ Q \in \mathbb{R}^{C \times H \times W}$,将其依列扁平化成序列 $q_1,\cdots,q_W \in \mathbb{R}^{C \times H}$ 送入 LSTM 中,将最终隐层状态 $h_w$ 作为 RoI 固定维度的表示。

Text Recognition Network



Figure 3. Text Recognition Network (TRN)


TRN 是一个基于 attention 机制的 encoder-decoder LSTMs。

Encoder 部分将 RFE 中 LSTM 的输出结果 $h_1,\cdots,h_W$ 送进另一个 LSTM 中得到序列 $V=[v_1,\cdots,v_W] \in \mathbb{R}^{R \times W}$,它既包含每一步的局部信息,同时也作为 attention 模块的上下文。

Decoder 部分会引入 ground-truth 标签,记为 $s={s_0,s_1,\cdots,S_{T+1}}$,其中 $s_0, s_{T+1}$ 表示开始和结束符。Decoder LSTM 将会输入序列 $x_0,x_1,\cdots,x_{T+1}$,其中 $x_0=[v_W;Atten(V,0)]$, $x_i=[\psi(s_{i-1});Atten(V,h’_{i-1})]$, $\psi()$ 是词向量变换的嵌入操作,最终的输出结果为 $y_1,\cdots,y_{T+1}$。

Attention 的计算方法参见论文。至于损失函数则跟 Faster RCNN 类似。

My Thoughts

整体算法还是启发于 Faster RCNN 和 CRNN,个人觉得有几处网络结构多余:

  • TDN 可以拿掉,虽然是对 TPN 的结果进行二次学习,但完全没有必要;
  • REF 中 RoI 送入 LSTM 获取固定大小表示,但在后面的处理没有用上,可以和 TRN 中 Encoder LSTM 进行合并。

另外,从本文的效果来看,训练网络时,使用 curriculum learning strategy 是一个不错的方法。

Authors

References

  • [1] [2017-ICCV] Towards end-to-end text spotting with convolutional recurrent neural networks. paper
请作者吃酒!