您的位置：首页 > 其它

如何使用tesseract-ocr4.0识别图片文字

2018-03-01 09:30 645 查看

首先下载tesseract-ocr安装包，附链接：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载完成后记住安装位置，后面要配置环境变量。简要描述配置环境变量，与Java配置环境变量类似，复制安装路径

C:\Program Files(x86)\Tesseract-OCR 把这个路径添加到系统变量Path里面，键入命令:tesseract -v可以查看安装版本确认是否安装成功；

此时还不能识别中文，需要下载简体中文包https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

把下载的语言包放到安装路径tessdata目录下

再次配置环境变量新建系统变量TESSDATA_PREFIX 变量值仍为安装路径C:\Program Files (x86)\Tesseract-OCR

二：识别图片

选择一张图片并建立一个txt文件用于存放识别结果

进入到存放图片的目录

在命令行界面键入命令

格式： tesseract 图片名称生成的结果文件的名称字库

例如：tesseract test.jpg result -l chi_sim

打开result.txt即可查看识别结果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航