文字区域具有很强的边缘特征,因此论文修改 HED 对图像进行密集预测,输出 text region map, charcter map 以及 linking orientation map,最后融合三个 feature map 生成文本框。
Accurate text localization in natural image with cascaded convolutional text network
论文采用 coarse-to-fine 的思想,采用两个级联的网络,对于难以区分开不同文本实例的 text region,进行精细识别,得到更准确的结果。
Multi-Oriented Text Detection with Fully Convolutional Networks
检测单个字符容易受背景干扰,造成漏检或误检的情况,而检测文本框相对于单个字符来说,和背景的区分行更强。因此,能不能结合局部信息(单个字符)和上下文信息(文本块)结合起来,使得检测更加鲁棒性。
FCN 在 2015 年被提出去进行像素分割,那么自然地想到能够标定每个像素属于文字的概率(salient map),也可以得到每个像素是字符中心的概率(centroid map)。
Scene Text Detection and Recognition Paper List
Collect and Record some excellent works on scene text detection and recognition. It will keep updating. If you have any suggestions about how to organize these papers, please contact me !