您的位置：首页 > 其它

Tesseract-OCR 训练自己的中文字库

2016-09-27 23:44 387 查看

先接到需求要做字符识别，故百度查询资料后，决定通过Tesseract-OCR来实现！虽然Tesseract-OCR也可以通过网上下载中文字库进行识别！但是由于识别效果不是很理想，所以决定根据所需要的识别的内容训练字库！网上说字库的训练最好在Tesseract-OCR的安装目录下进行，本人Tesseract-OCR的安装目录位于D:\Program Files\Tesseract-OCR。先将步骤整理如下：

1.运行cmd,进入d盘 d:

2.进入Tesseract-OCR文件夹的安装目录 cdProgram Files\Tesseract-OCR

3.通过jTessBoxEditor软件生成tif格式的文件（Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件）

4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox

4.1生成chi.myself.exp0.box文件后，需要使用jTessBoxEditor软件对其进行识别纠正！这部分很重要，等有时间再进行补充.......

4.2如果已经有中文字库，那么在makebox的时候可以使用中文字库，那样得到的.box文件就会有大部分是可以识别出来的，只需添加一个参数：tesseract.exe chi.myself.exp0.tif chi.myself.exp0
-l chi_sim batch.nochop makebox

5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train