[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network
2016-11-18 12:52
501 查看
最近一直在复现这篇论文,除了数据外已基本完成,可是没想到昨天开源了[code],只能说我等水货赶不上开源的速度,附上个人的一些中间结果(只训练了200多张图片,网络架构,参数等跟作者的有些出入),然后来说说这篇论文。
为什么只是说说这篇论文还不是分析这边论文,主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster
rcnn的rpn思想,主要的不同点在于作者观测到RPN比较难预测出整个文本行的框,而将文本行分成一个一个的小框去预测,小框是固定宽度所以主要是预测高度,如果用的是VGG
conv5的特征,那么高度就是16。(另外插一个小知识点,本人以前也错过,卷积层的size和pool层的数量没关系,跟stride有关系)
第二点是加入了双向LSTM,根据论文的数据LSTM的作用还是很大,因为在其他论文中不需要双向LSTM,依靠感受野也能分析出来,是不是可以设计一个不同的网络搞定这个问题。
最后一个小不同就是为了精确定位加入了side regression,不过根据我个人训练的结果还是要看具体的文字,如果文字复杂些,还是搞不定。
另外个人感觉作者将一个文本行分解成一个一个小块来做是比较实用的策略,降低了特征空间,又不会像另外一篇论文那种使用像素级labeling把问题搞得非常复杂
问题:
1没有很好地处理多方向的文本行
2训练的时候由于有regression和LSTM,需要小心控制梯度爆炸。
2017/2/15更新
根据作者提供的测试代码重新修改了训练代码(发现自己写的跟作者的还是有比较大的差距的),加入了side refinement,数据方面自己标注了2000多张图片,最后的训练效果肯定跟作者的有出入
为什么只是说说这篇论文还不是分析这边论文,主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster
rcnn的rpn思想,主要的不同点在于作者观测到RPN比较难预测出整个文本行的框,而将文本行分成一个一个的小框去预测,小框是固定宽度所以主要是预测高度,如果用的是VGG
conv5的特征,那么高度就是16。(另外插一个小知识点,本人以前也错过,卷积层的size和pool层的数量没关系,跟stride有关系)
第二点是加入了双向LSTM,根据论文的数据LSTM的作用还是很大,因为在其他论文中不需要双向LSTM,依靠感受野也能分析出来,是不是可以设计一个不同的网络搞定这个问题。
最后一个小不同就是为了精确定位加入了side regression,不过根据我个人训练的结果还是要看具体的文字,如果文字复杂些,还是搞不定。
另外个人感觉作者将一个文本行分解成一个一个小块来做是比较实用的策略,降低了特征空间,又不会像另外一篇论文那种使用像素级labeling把问题搞得非常复杂
问题:
1没有很好地处理多方向的文本行
2训练的时候由于有regression和LSTM,需要小心控制梯度爆炸。
2017/2/15更新
根据作者提供的测试代码重新修改了训练代码(发现自己写的跟作者的还是有比较大的差距的),加入了side refinement,数据方面自己标注了2000多张图片,最后的训练效果肯定跟作者的有出入
相关文章推荐
- ctpn-Detecting Text in Natural Image with Connectionist Text Proposal Network 论文解读
- 论文阅读学习 - CTPN-Detecting Text in Natural Image with Connectionist Text Proposal Network
- 论文阅读(Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network)
- Detecting Text in Natural Image with Connectionist Text Proposal Network论文笔记
- CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network
- 译文:Detecting Text in Natural Image with Connectionist Text Proposal Network
- Detecting Text in Natural Image with Connectionist Text Proposal Network
- 【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network
- 论文阅读(Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network)
- 论文阅读(Xiang Bai——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images)
- 论文阅读(Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images)
- 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)
- Detecting Oriented Text in Natural Images by Linking Segments:SegLink实现图像内文档识别的github代码复现实践笔记
- 【论文笔记】Detecting Oriented Text in Natural Images by Linking Segments
- 论文阅读:Reading Text in the Wild with Convolutional Neural Networks
- 文本检测论文阅读-Object Proposals for Text Extraction in the WildSelective Search for Object Recoginition。
- TextBoxes: A Fast Text Detector with a Single Deep Neural Network论文阅读
- 论文阅读:Synthetic Data for Text Localisation in Natural Images
- [Javascript] Classify text into categories with machine learning in Natural
- [Javascript] Classify JSON text data with machine learning in Natural