您的位置：首页 > 移动开发

论文笔记：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

2016-10-12 15:20 1716 查看

1.历史方法
1）基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强，crop的足够好。
2）直接对图片进行分类。9万个单词，组合成无数的单词，无法直接应用
3）RNN,训练和测试均不需要每个字符的位置。但是需要预处理，从图片得到特征序列，独立做的，无法端到端。

2.propose method
1)端到端
2）任意长度
3）模型尺寸小
4）不针对特定字典，有无字典表现都很好

3.network如图
图：

1）输入图片高度要一致
2）（创新性的地方）map2seq：在最后一个卷基层输出的所有通道上，从左到右逐列拼接，得到特征序列。按照宽度为1来输入到LSTM，这样可能多个长条特征才会cover一个单词。
图：

3）bp时需要seq2map，把梯度再拼成map
4）BLSTM利用双向信息，并stacked更深
5）标注序列的概率，通过CTC Layer,label不用具体到每个字符。
公式图：

任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是先删除重复的字母，后删除空格。
示意图：“AAA” … “AA”是LSTM输出的不同预测的一个分布。

6)优化方法采用adadelta。SGD似乎不work。
7）trick:长方形池化,BN

end

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： crnn OCR lstm

相关文章推荐

新的分享

章节导航