EAST

EAST 是一个简洁而高效的文字检测算法,避免了繁琐的后处理方法,直接用 FCN 进行像素级的预测和回归文字框。

Arictecture

EAST 使用 PVANet,并借鉴 U-shape 的设计思想,融合高层和底层特征进行预测。Score map 的输出范围为[0,1],并且代表着基于此像素点预测文本框的置信度。位置信息,可以选择 RBOX 和 QUAD 进行表示。后处理操作包括 Tresholding 和 NMS.

Label Generation

Score map label 生成如(a)所示,黄色虚线框是人工标注框,绿色框由黄色虚线框边长缩小0.3倍相邻最短边形成的,标注结果如(b)所示。

假设采用 RBOX 标注方式,先生成黄色虚线框的最小外接矩形框(红色),然后计算 score map 中的点分别到四条边的距离,以及红色矩形框的角度。

Limitations

论文中,提到了 EAST 的两个缺点:

  • 受限于感受野的大小,不能够很好检测 long text;
  • 对于垂直文本的检测效果不好。

另外,EAST 对于边界的回归也不是很准确。

My Thoughts

  • 针对于感受野小的问题,可以尝试改变卷积核尺寸,宽高比,以及使用 ASPP 等技巧;
  • 对于边界回归不准,可以参考 AdvancedEAST[2],也可以在训练 geometry 时直接计算点到边的相对距离,这样应该学到更准确的边界信息。

References

请作者吃酒!