TextBoxes: A Fast Text Detector with a Single Deep Neural Network论文阅读
2017-08-11 00:00
639 查看
作者: 廖明辉,石葆光, 白翔, 王兴刚 ,刘文予
论文地址:https://arxiv.org/abs/1611.06779
代码实现 :
https://github.com/MhLiao/TextBoxes
https://github.com/xiaodiu2010/TextBoxes-TensorFlow
**论文主题:**使用改进版的SSD实现文本检测。
论文贡献:
提出了一个可以用在场景文本检测的神经网络模型。
提出了一个结合文字检测和识别的端到端框架。
模型在保证有高的预测精度情况下还可以保存高的计算效率。
通常场景文本识别任务可以被分为两个步骤,第一,定位场景文本位置;第二,对定位后的场景文本进行识别。本篇论文对这两方面都有涉及,但是主要是解决文本定位问题。
场景文本定位问题通常有三种实现方法。第一,先识别字符,再识别单词;第二,直接识别单词,Textboxes就是基于单词识别实现的;第三,基于文本行实现文本定位。
Textboxes的实现是基于SSD算法的改进,SSD主要是检测一般图像中的对象,在用于场景文本检测时是不鲁棒的,因此论文提出了text-box神经网络层解决这个问题,是一个针对场景文本检测的修改版SSD算法。场景文本识别可以采用CRNN的方法,CRNN可以直接对输入的场景文本图片给一个文本输出,同时,可以使用CRNN的识别置信度来调整Textboxes算法。
![![![
]
Textboxes网络继承了VGG-16网络,前13层网络不变。最后两个全连接层通过参数降采样改为卷积层,最后三层跟有一个卷积层和池化层,由3层变为9层,text-box层也叫多输出层,由6层卷积层构成,每个卷积层都采用非极大值抑制。Textboxes网络只有卷积层和池化层组成,因此在训练和测试过程中适合任意尺寸的图片输入。
On a map location (i, j) which associates a default box b0 = (x0, y0, w0, h0), the text-box layer predicts the values of (∆x, ∆y, ∆w, ∆h, c), indicating that a box b = (x, y, w, h) is detected with confidencec, where
x = x0 + w0∆x,
y = y0 + h0∆y,
w = w0 exp(∆w),
h = h0 exp(∆h).
由于单词长短不确定性,我们定义了6个默认的长短比例(1,2,3,5,7,10),这样默认框会在水平方向上很稠密,为了避免在垂直方面很稀疏,每个框都设置了垂直便宜。而且在text-box层使用15的卷积层,不采用默认的33卷积层,1*5的卷积层更适合较大区域比例的文本输入,也能避免正方形的文本比例。
损失函数:L(x, c, l, g) = 1/N(Lconf(x, c) + αLloc(x, l, g))
x:匹配表明矩阵
c:置信度
l:预测位置
g:标签位置
N:是与标签位置匹配的框数量
We adopt the smooth L1 loss (Girshick 2015) for Lloc and a 2-class softmax loss for Lconf.
可以对原始图片进行拉伸来增加滤波器对极端情况下单词长宽比的识别,这样会稍微增加计算规模,但是可以提高预测精度。
An input image is rescaled into five scales, including (widthheight) 300300, 700700, 300700, 500700, and 16001600. Note that some scales squeeze image horizontally, so that some “long” words are shortened. Multi-scale inputs boost detection accuracy while slightly increasing the computational cost. On ICDAR 2013, they further improve f-measure of detection by 5 percents. Detecting all five scales takes 0.73s per image, and 0.24s if we remove the last 1600*1600 scale。
非极大值抑制:http://blog.csdn.net/u014365862/article/details/53376516
实验结果:
定位
text spotting和端到端识别:
![
]
效果展示:
论文地址:https://arxiv.org/abs/1611.06779
代码实现 :
https://github.com/MhLiao/TextBoxes
https://github.com/xiaodiu2010/TextBoxes-TensorFlow
**论文主题:**使用改进版的SSD实现文本检测。
论文贡献:
提出了一个可以用在场景文本检测的神经网络模型。
提出了一个结合文字检测和识别的端到端框架。
模型在保证有高的预测精度情况下还可以保存高的计算效率。
通常场景文本识别任务可以被分为两个步骤,第一,定位场景文本位置;第二,对定位后的场景文本进行识别。本篇论文对这两方面都有涉及,但是主要是解决文本定位问题。
场景文本定位问题通常有三种实现方法。第一,先识别字符,再识别单词;第二,直接识别单词,Textboxes就是基于单词识别实现的;第三,基于文本行实现文本定位。
Textboxes的实现是基于SSD算法的改进,SSD主要是检测一般图像中的对象,在用于场景文本检测时是不鲁棒的,因此论文提出了text-box神经网络层解决这个问题,是一个针对场景文本检测的修改版SSD算法。场景文本识别可以采用CRNN的方法,CRNN可以直接对输入的场景文本图片给一个文本输出,同时,可以使用CRNN的识别置信度来调整Textboxes算法。
![![![
]
Textboxes网络继承了VGG-16网络,前13层网络不变。最后两个全连接层通过参数降采样改为卷积层,最后三层跟有一个卷积层和池化层,由3层变为9层,text-box层也叫多输出层,由6层卷积层构成,每个卷积层都采用非极大值抑制。Textboxes网络只有卷积层和池化层组成,因此在训练和测试过程中适合任意尺寸的图片输入。
On a map location (i, j) which associates a default box b0 = (x0, y0, w0, h0), the text-box layer predicts the values of (∆x, ∆y, ∆w, ∆h, c), indicating that a box b = (x, y, w, h) is detected with confidencec, where
x = x0 + w0∆x,
y = y0 + h0∆y,
w = w0 exp(∆w),
h = h0 exp(∆h).
由于单词长短不确定性,我们定义了6个默认的长短比例(1,2,3,5,7,10),这样默认框会在水平方向上很稠密,为了避免在垂直方面很稀疏,每个框都设置了垂直便宜。而且在text-box层使用15的卷积层,不采用默认的33卷积层,1*5的卷积层更适合较大区域比例的文本输入,也能避免正方形的文本比例。
损失函数:L(x, c, l, g) = 1/N(Lconf(x, c) + αLloc(x, l, g))
x:匹配表明矩阵
c:置信度
l:预测位置
g:标签位置
N:是与标签位置匹配的框数量
We adopt the smooth L1 loss (Girshick 2015) for Lloc and a 2-class softmax loss for Lconf.
可以对原始图片进行拉伸来增加滤波器对极端情况下单词长宽比的识别,这样会稍微增加计算规模,但是可以提高预测精度。
An input image is rescaled into five scales, including (widthheight) 300300, 700700, 300700, 500700, and 16001600. Note that some scales squeeze image horizontally, so that some “long” words are shortened. Multi-scale inputs boost detection accuracy while slightly increasing the computational cost. On ICDAR 2013, they further improve f-measure of detection by 5 percents. Detecting all five scales takes 0.73s per image, and 0.24s if we remove the last 1600*1600 scale。
非极大值抑制:http://blog.csdn.net/u014365862/article/details/53376516
实验结果:
定位
text spotting和端到端识别:
![
]
效果展示:
相关文章推荐
- 【论文阅读】TextBoxes: A Fast Text Detector with a Single Deep Neural Network
- 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)
- 论文笔记:TextBoxes: A Fast Text Detector with a Single Deep Neural Network
- 论文笔记:TextBoxes: A Fast Text Detector with a Single Deep Neural Network
- [论文笔记]TextBoxes A Fast Text Detector with a Single Deep Neural Network
- 【AAAI2017】TextBoxes:A Fast Text Detector with a Single Deep Neural Network
- 论文阅读笔记(一)——Deep Convolutional Neural Network with Independent
- 【论文笔记】Image Classification with Deep Convolutional Neural Network
- 论文阅读(1)——ImageNet Classification with Deep Convolutional Neural Networks
- MSCNN 论文解析(A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
- 【论文阅读】Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huff
- 论文阅读:Reading Text in the Wild with Convolutional Neural Networks
- 论文阅读(Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network)
- Feed Forward and Backward Run in Deep Convolution Neural Network 论文阅读笔记
- 论文阅读-《Deep Matching Prior Network:Towards Tighter Multi-oriented Text Detection》
- [论文笔记]Single Shot Text Detector with Regional Atterntion
- MSCNN 论文解析(A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
- 论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)
- 论文阅读ImageNet Classification with Deep Convolutional Neural Networks &Going Deeper with Convolutions
- 论文阅读学习 - CTPN-Detecting Text in Natural Image with Connectionist Text Proposal Network