您的位置:首页 > 运维架构

Detecting Text in Natural Image with Connectionist Text Proposal Network论文笔记

2017-09-01 21:33 573 查看
online demo的地址:http://textdet.com/

代码的开源地址:code

论文地址:paper

不过这个demo网址会时不时的不可用,可能是访问的人多的缘故或者其它原因.

翻译得不怎么好,希望大家留言批评指正

Connectionist Text Proposal Network(CTPN)

网络结构如下图:



(a) 为CTPN的网络结构图,我们用一个3*3的滑动窗口,在VGG16的最后一层卷积图(conv5)上滑动。这些序列化的窗口循环的用一个双向LSTM(BLSTM)相连接,每个窗口的卷积特征(3*3*C)作为BLSTM的256D输入,BLSTM包括两个128D(dimension)的LSTMs,这个RNN层连接到了一个512D的全连接层,然后接一个输出层。输出层同时预测该区域是否是文本区域的得分,这k个anchor的y轴坐标和侧细化偏移(side-refinement
offsets)。

(b) CTPN输出序列化的固定宽度的精细文本提议区域,每个方框的颜色代表是否是文本的得分,得分为正的方框会显示出来。

贡献

(a)    我们把文本检测问题转换成定位一系列细粒度文本提议。因此我们提议了一个anchor回归机制,能够同时对每个提议文本区域预测垂直定位和文本的得分,并且得到了一个较高的精度。

(b)   我们提出了一个内部网络循环机制,用以连接在卷积特征图里面的序列化文本提议,这使得我们的检测器能够利用文本行的上下文信息,使得能检测更具有挑战性的场景。

(c)    这两种方法实现的无缝的集成,使得满足文本序列的本质。规整成了一个端到端训练的模型。我们的方法可以在一个过程中处理多刻度(multi-scale)和多语言的文本。避免了进一步过滤和改进。

(d)   我们的方法取得了很好的效果,在ICDAR 2013上达到了0.88的F-measure,而别人的方法只能达到0.83.在ICDAR2015上达到了0.61的F-measure,其他人的方法只有0.54.另外,计算也非常高效,通过使用VGG16模型,每张图片用时0.14s(ICDAR 2013)。

组成部分

Connectionist Text Proposal Network

和RPN相似,CTPN本质上是一个全卷积网络,输入的图片可以是任意大小。它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。

Recurrent Connectionist Text Proposals

为了利用文本的上下文信息,我们设计了一个RNN层,接在conv5之后,考虑到rnn有梯度消失问题,并且文本可以利用其前面和后面的信息,我们把rnn拓展成了双向LSTM(bi-directional LSTM),

Side-Refinement



但有时,我们会出现上述情形,水平方向上的两侧没有包含ground truth的文本行区域。或者一些侧面的提议被舍弃了(例如,那些区域是文本的得分很低)。但是特别对一些小刻度的文本行或者单词来说,这是不能被忽略的。基于此提出了一个侧边改良的方法(side-refinement approach),精确地估算每一个anchor或者提议的左右两侧的补偿

损失函数

CTPN有三个输出,三个输出都是连接到最后的全连接层(FC layer),分别是文本得分text/nontext scores (s),垂直坐标vertical coordinates,侧边补偿(side-refinement offset(o)),对于conv5上的每一个位置,我们用了k的anchor,输出层分别2k,2k,k个参数输出。

误差函数如下,



每一个anchor就是一个训练样例,i是一个mini-batch中一个anchor的索引,si是anchor i的预测概率。Si*={0,1}是ground truth, j 是y坐标回归的合法的anchor的索引。一个合法的anchor就是一个正anchor,或者能覆盖ground truth>0.5的文本提议,Vj和Vj*分别是y坐标的预测值和ground truth.k是side-anchor的索引。Λ1和λ2是平衡不同任务的损失权重。Ls_cl是分损失函数,我们这里用了softmax,Lv_re和L0_re是回归损失函数,我们用smooth
L1函数来计算它们。Ns,Nv,No是规范化参数

实验结果





参考文献:
[1]Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao:Detecting Text in Natural Image with Connectionist Text Proposal Network. ECCV (8) 2016: 56-72
[2]Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun:
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Trans. Pattern Anal. Mach. Intell. 39(6): 1137-1149 (2017)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐