Detecting Text in Natural Image with Connectionist Text Proposal Network论文笔记
2017-09-01 21:33
573 查看
online demo的地址:http://textdet.com/
代码的开源地址:code
论文地址:paper
不过这个demo网址会时不时的不可用,可能是访问的人多的缘故或者其它原因.
翻译得不怎么好,希望大家留言批评指正
(a) 为CTPN的网络结构图,我们用一个3*3的滑动窗口,在VGG16的最后一层卷积图(conv5)上滑动。这些序列化的窗口循环的用一个双向LSTM(BLSTM)相连接,每个窗口的卷积特征(3*3*C)作为BLSTM的256D输入,BLSTM包括两个128D(dimension)的LSTMs,这个RNN层连接到了一个512D的全连接层,然后接一个输出层。输出层同时预测该区域是否是文本区域的得分,这k个anchor的y轴坐标和侧细化偏移(side-refinement
offsets)。
(b) CTPN输出序列化的固定宽度的精细文本提议区域,每个方框的颜色代表是否是文本的得分,得分为正的方框会显示出来。
(b) 我们提出了一个内部网络循环机制,用以连接在卷积特征图里面的序列化文本提议,这使得我们的检测器能够利用文本行的上下文信息,使得能检测更具有挑战性的场景。
(c) 这两种方法实现的无缝的集成,使得满足文本序列的本质。规整成了一个端到端训练的模型。我们的方法可以在一个过程中处理多刻度(multi-scale)和多语言的文本。避免了进一步过滤和改进。
(d) 我们的方法取得了很好的效果,在ICDAR 2013上达到了0.88的F-measure,而别人的方法只能达到0.83.在ICDAR2015上达到了0.61的F-measure,其他人的方法只有0.54.另外,计算也非常高效,通过使用VGG16模型,每张图片用时0.14s(ICDAR 2013)。
和RPN相似,CTPN本质上是一个全卷积网络,输入的图片可以是任意大小。它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
Recurrent Connectionist Text Proposals
为了利用文本的上下文信息,我们设计了一个RNN层,接在conv5之后,考虑到rnn有梯度消失问题,并且文本可以利用其前面和后面的信息,我们把rnn拓展成了双向LSTM(bi-directional LSTM),
Side-Refinement
但有时,我们会出现上述情形,水平方向上的两侧没有包含ground truth的文本行区域。或者一些侧面的提议被舍弃了(例如,那些区域是文本的得分很低)。但是特别对一些小刻度的文本行或者单词来说,这是不能被忽略的。基于此提出了一个侧边改良的方法(side-refinement approach),精确地估算每一个anchor或者提议的左右两侧的补偿
误差函数如下,
每一个anchor就是一个训练样例,i是一个mini-batch中一个anchor的索引,si是anchor i的预测概率。Si*={0,1}是ground truth, j 是y坐标回归的合法的anchor的索引。一个合法的anchor就是一个正anchor,或者能覆盖ground truth>0.5的文本提议,Vj和Vj*分别是y坐标的预测值和ground truth.k是side-anchor的索引。Λ1和λ2是平衡不同任务的损失权重。Ls_cl是分损失函数,我们这里用了softmax,Lv_re和L0_re是回归损失函数,我们用smooth
L1函数来计算它们。Ns,Nv,No是规范化参数
参考文献:
[1]Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao:Detecting Text in Natural Image with Connectionist Text Proposal Network. ECCV (8) 2016: 56-72
[2]Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun:
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Trans. Pattern Anal. Mach. Intell. 39(6): 1137-1149 (2017)
代码的开源地址:code
论文地址:paper
不过这个demo网址会时不时的不可用,可能是访问的人多的缘故或者其它原因.
翻译得不怎么好,希望大家留言批评指正
Connectionist Text Proposal Network(CTPN)
网络结构如下图:(a) 为CTPN的网络结构图,我们用一个3*3的滑动窗口,在VGG16的最后一层卷积图(conv5)上滑动。这些序列化的窗口循环的用一个双向LSTM(BLSTM)相连接,每个窗口的卷积特征(3*3*C)作为BLSTM的256D输入,BLSTM包括两个128D(dimension)的LSTMs,这个RNN层连接到了一个512D的全连接层,然后接一个输出层。输出层同时预测该区域是否是文本区域的得分,这k个anchor的y轴坐标和侧细化偏移(side-refinement
offsets)。
(b) CTPN输出序列化的固定宽度的精细文本提议区域,每个方框的颜色代表是否是文本的得分,得分为正的方框会显示出来。
贡献
(a) 我们把文本检测问题转换成定位一系列细粒度文本提议。因此我们提议了一个anchor回归机制,能够同时对每个提议文本区域预测垂直定位和文本的得分,并且得到了一个较高的精度。(b) 我们提出了一个内部网络循环机制,用以连接在卷积特征图里面的序列化文本提议,这使得我们的检测器能够利用文本行的上下文信息,使得能检测更具有挑战性的场景。
(c) 这两种方法实现的无缝的集成,使得满足文本序列的本质。规整成了一个端到端训练的模型。我们的方法可以在一个过程中处理多刻度(multi-scale)和多语言的文本。避免了进一步过滤和改进。
(d) 我们的方法取得了很好的效果,在ICDAR 2013上达到了0.88的F-measure,而别人的方法只能达到0.83.在ICDAR2015上达到了0.61的F-measure,其他人的方法只有0.54.另外,计算也非常高效,通过使用VGG16模型,每张图片用时0.14s(ICDAR 2013)。
组成部分
Connectionist Text Proposal Network和RPN相似,CTPN本质上是一个全卷积网络,输入的图片可以是任意大小。它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
Recurrent Connectionist Text Proposals
为了利用文本的上下文信息,我们设计了一个RNN层,接在conv5之后,考虑到rnn有梯度消失问题,并且文本可以利用其前面和后面的信息,我们把rnn拓展成了双向LSTM(bi-directional LSTM),
Side-Refinement
但有时,我们会出现上述情形,水平方向上的两侧没有包含ground truth的文本行区域。或者一些侧面的提议被舍弃了(例如,那些区域是文本的得分很低)。但是特别对一些小刻度的文本行或者单词来说,这是不能被忽略的。基于此提出了一个侧边改良的方法(side-refinement approach),精确地估算每一个anchor或者提议的左右两侧的补偿
损失函数
CTPN有三个输出,三个输出都是连接到最后的全连接层(FC layer),分别是文本得分text/nontext scores (s),垂直坐标vertical coordinates,侧边补偿(side-refinement offset(o)),对于conv5上的每一个位置,我们用了k的anchor,输出层分别2k,2k,k个参数输出。误差函数如下,
每一个anchor就是一个训练样例,i是一个mini-batch中一个anchor的索引,si是anchor i的预测概率。Si*={0,1}是ground truth, j 是y坐标回归的合法的anchor的索引。一个合法的anchor就是一个正anchor,或者能覆盖ground truth>0.5的文本提议,Vj和Vj*分别是y坐标的预测值和ground truth.k是side-anchor的索引。Λ1和λ2是平衡不同任务的损失权重。Ls_cl是分损失函数,我们这里用了softmax,Lv_re和L0_re是回归损失函数,我们用smooth
L1函数来计算它们。Ns,Nv,No是规范化参数
实验结果
参考文献:
[1]Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao:Detecting Text in Natural Image with Connectionist Text Proposal Network. ECCV (8) 2016: 56-72
[2]Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun:
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Trans. Pattern Anal. Mach. Intell. 39(6): 1137-1149 (2017)
相关文章推荐
- 论文阅读学习 - CTPN-Detecting Text in Natural Image with Connectionist Text Proposal Network
- 论文阅读(Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network)
- ctpn-Detecting Text in Natural Image with Connectionist Text Proposal Network 论文解读
- [论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network
- Detecting Text in Natural Image with Connectionist Text Proposal Network
- 译文:Detecting Text in Natural Image with Connectionist Text Proposal Network
- CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network
- 【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network
- 论文阅读(Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network)
- 【论文笔记】Detecting Oriented Text in Natural Images by Linking Segments
- Detecting Oriented Text in Natural Images by Linking Segments:SegLink实现图像内文档识别的github代码复现实践笔记
- 论文阅读(Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images)
- 深度学习论文笔记--Recover Canonical-View Faces in the Wild with Deep Neural Network
- 论文阅读(Xiang Bai——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images)
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
- 论文笔记:TextBoxes: A Fast Text Detector with a Single Deep Neural Network
- 【论文笔记】Recover Canonical-View Faces in the Wild with Deep Neural Network
- 论文《Text Understanding with the Attention Sum Reader Network》笔记
- 【论文笔记】Image Classification with Deep Convolutional Neural Network
- 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)