Tesseract-OCR 训练自己的中文字库
2016-09-27 23:44
387 查看
先接到需求要做字符识别,故百度查询资料后,决定通过Tesseract-OCR来实现!虽然Tesseract-OCR也可以通过网上下载中文字库进行识别!但是由于识别效果不是很理想,所以决定根据所需要的识别的内容训练字库!网上说字库的训练最好在Tesseract-OCR的安装目录下进行,本人Tesseract-OCR的安装目录位于D:\Program Files\Tesseract-OCR。先将步骤整理如下:
1.运行cmd,进入d盘 d:
2.进入Tesseract-OCR文件夹的安装目录 cdProgram Files\Tesseract-OCR
3.通过jTessBoxEditor软件 生成tif格式的文件(Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件)
4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox
4.1生成chi.myself.exp0.box文件后,需要使用jTessBoxEditor软件对其进行识别纠正!这部分很重要,等有时间再进行补充.......
4.2如果已经有中文字库,那么在makebox的时候可以使用中文字库,那样得到的.box文件就会有大部分是可以识别出来的,只需添加一个参数:tesseract.exe chi.myself.exp0.tif chi.myself.exp0
-l chi_sim batch.nochop makebox
5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train
6.生成unicharset文件 unicharset_extractor chi.myself.exp0.box
7.新建font_properties文件 内容 myself 0 0 0 0 0
8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr
9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr
10.cntraining.exe chi.myself.exp0.tr
11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.
12.combine_tessdata myself.
13.现在即可将生成的字库拷贝到tessdata文件夹中使用!
注:
A.tesseract-ocr版本为3.02.02 + VS2013
1.运行cmd,进入d盘 d:
2.进入Tesseract-OCR文件夹的安装目录 cdProgram Files\Tesseract-OCR
3.通过jTessBoxEditor软件 生成tif格式的文件(Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件)
4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox
4.1生成chi.myself.exp0.box文件后,需要使用jTessBoxEditor软件对其进行识别纠正!这部分很重要,等有时间再进行补充.......
4.2如果已经有中文字库,那么在makebox的时候可以使用中文字库,那样得到的.box文件就会有大部分是可以识别出来的,只需添加一个参数:tesseract.exe chi.myself.exp0.tif chi.myself.exp0
-l chi_sim batch.nochop makebox
5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train
6.生成unicharset文件 unicharset_extractor chi.myself.exp0.box
7.新建font_properties文件 内容 myself 0 0 0 0 0
8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr
9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr
10.cntraining.exe chi.myself.exp0.tr
11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.
12.combine_tessdata myself.
13.现在即可将生成的字库拷贝到tessdata文件夹中使用!
注:
A.tesseract-ocr版本为3.02.02 + VS2013
相关文章推荐
- C++在Tesseract-OCR中使用自己训练的字库进行字体识别
- Tesseract 3.02中文字库训练----整理
- Tesseract-OCR识别中文与训练字库实例
- Tesseract-OCR 3.0.1训练自己的语言库
- Tesseract-OCR识别中文与训练字库实例
- Tesseract 3.02中文字库训练
- tesseract ocr训练样本库 识别字库
- Tesseract-OCR识别中文与训练字库实例
- Tesseract-OCR 训练中文
- 纯记录,Tesseract-OCR 中文字符训练
- Tesseract 3.02中文字库训练
- [置顶] 【Tesseract-OCR】Tesseract训练中文字体识别
- [转]Tesseract 3.02中文字库训练
- tesseract_ocr 字符识别基础及训练字库、合并字库
- tesseract-ocr训练识别中文
- tesseract-ocr字库训练图文讲解
- tesseract-ocr字库训练图文讲解
- tesseract_ocr 字符识别基础及训练字库、合并字库
- Tesseract OCR 3.05.01 VS2015编译 及 字库训练
- Tesseract-OCR4.0识别中文与训练字库实例