论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application
2016-10-12 15:20
1716 查看
1.历史方法
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。
2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好
3.network如图
图:
1)输入图片高度要一致
2)(创新性的地方)map2seq:在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:
3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:
任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是先删除重复的字母,后删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。
6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN
end
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。
2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好
3.network如图
图:
1)输入图片高度要一致
2)(创新性的地方)map2seq:在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:
3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:
任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是先删除重复的字母,后删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。
6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN
end
相关文章推荐
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
- An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to S
- BaiXiang——【arXi2015】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and
- 论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
- 论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
- 论文阅读:End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for H
- 论文笔记--N4-Fields: Neural Network Nearest Neighbor Fields for Image Transforms
- 论文阅读(Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework)
- 人脸识别方向论文笔记(3)-- Sparsifying Neural Network Connections for Face Recognition
- [论文笔记] Learning to Read Chest X-Rays Recurrent Neural Cascade Model for Automated Image Annotation
- 论文笔记-An Analysis of Deep Neural Network Models for Practical Applications
- 论文阅读笔记:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
- 论文阅读 | An Artificial Neural Network-based Stock Trading System Using Technical Analysis and Big Data
- 论文读书笔记-Using neural network to combine measures of word semantic similarity for image annotation
- An End-to-End Trainable Neural Network...笔记
- Learning both Weights and Connections for Efficient Neural Network -- 论文笔记
- [行为识别]RPAN:An end-to-end recurrent pose-attention network for action recognition
- Deep Residual Learning for Image Recognition(ResNet)论文笔记
- An iterative image registration technique with an application to stereo vision笔记
- [论文笔记] SOA Middleware Support for Service Process Reconfiguration with End-to-End QoS Constraints (ICWS 2009)