tesseract训练字符中遇到的问题总结
2014-06-05 15:47
274 查看
参考文章: /article/3454371.html 的采用tessract库训练字符的过程,
对中文字符库,比如车牌中的省份简称等的训练,字母的训练,数目和字母的训练。
在训练过程中,发现了以下问题:
1、font_properties的文件创建:
文件中的内容为:UnknownFont 0 0 0 0 0
因为在训练过程中,我并没有对文件命名,所以系统默认是:UnknownFont 这个名称。
2、把unicharset, inttemp, normproto, pfftable这四个文件加上前缀“orderNo.”时,少写了一个文件shapetable,此文件也应该重新命名。
3、鉴于 http://www.lixin.me/blog/2012/05/26/29536 在下面讨论中,提到的3.02版本需要一个 shapeclustering 过程
Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr
其实是没有必要的。
以下附上命令行使用,可以将这些拷贝到一个文件中,命名为.bat文件,就可以直接使用,而不用一行一行敲代码了。
对中文字符库,比如车牌中的省份简称等的训练,字母的训练,数目和字母的训练。
在训练过程中,发现了以下问题:
1、font_properties的文件创建:
文件中的内容为:UnknownFont 0 0 0 0 0
因为在训练过程中,我并没有对文件命名,所以系统默认是:UnknownFont 这个名称。
2、把unicharset, inttemp, normproto, pfftable这四个文件加上前缀“orderNo.”时,少写了一个文件shapetable,此文件也应该重新命名。
3、鉴于 http://www.lixin.me/blog/2012/05/26/29536 在下面讨论中,提到的3.02版本需要一个 shapeclustering 过程
Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr
其实是没有必要的。
以下附上命令行使用,可以将这些拷贝到一个文件中,命名为.bat文件,就可以直接使用,而不用一行一行敲代码了。
tesseract.exe letterNumMerge.tif letterNumMerge batch.nochop makebox pause tesseract.exe letterNumMerge.tif letterNumMerge nobatch box.train unicharset_extractor.exe letterNumMerge.box mftraining.exe -F font_properties -U unicharset letterNumMerge.tr cntraining.exe letterNumMerge.tr rename normproto letterNumMerge.normproto rename unicharset letterNumMerge.unicharset rename inttemp letterNumMerge.inttemp rename pffmtable letterNumMerge.pffmtable rename shapetable letterNumMerge.shapetable pause combine_tessdata.exe letterNumMerge. pause
相关文章推荐
- 关于tesseract字符训练遇到的问题及解决方法
- TensorFlow训练遇到的问题总结
- python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断
- 使用caffe训练faster-rcnn时遇到的问题总结
- Tensorflow GPU训练过程中遇到的问题总结
- c++关于结尾遇到‘\n’或其他特殊字符结束读取的问题(个人总结,大神勿喷)
- 使用caffe训练faster-rcnn时遇到的问题总结
- 训练FCN时遇到的问题总结
- 使用split()遇到的问题和方法总结 ( Dangling meta character 和 多个分隔字符)
- python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断
- 使用caffe训练faster-rcnn时遇到的问题总结
- 使用linux过程中遇到的问题总结
- 项目管理遇到的问题总结
- python用法:处理sqlite中的中文字符时遇到的问题
- struts中遇到异常问题总结
- 最近写shell脚本遇到的几点问题总结
- JAVA-近日遇到的java的日期时间类型的几个问题总结
- spring 国际化遇到的问题总结
- C# 系统开发历程 经验总结及遇到问题 之 无法更新有效的 更新要求有效的 UpdateCommand
- 锐起无盘xp的搭建历程及遇到问题总结