您的位置:首页 > 移动开发

论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

2016-10-12 15:20 1716 查看
1.历史方法
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。

2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好

3.network如图
图:


1)输入图片高度要一致
2)(创新性的地方)map2seq:在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:



3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:



任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是删除重复的字母,删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。 



6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN

end 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  crnn OCR lstm
相关文章推荐