您的位置:首页 > 其它

如何使用tesseract-ocr4.0识别图片文字

2018-03-01 09:30 645 查看
首先下载tesseract-ocr安装包,附链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载完成后记住安装位置,后面要配置环境变量。简要描述配置环境变量,与Java配置环境变量类似,复制安装路径

C:\Program Files(x86)\Tesseract-OCR 把这个路径添加到系统变量Path里面,键入命令:tesseract -v可以查看安装版本确认是否安装成功;


此时还不能识别中文,需要下载简体中文包https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

把下载的语言包放到安装路径tessdata目录下

再次配置环境变量 新建系统变量TESSDATA_PREFIX 变量值仍为安装路径C:\Program Files (x86)\Tesseract-OCR 

二:识别图片

选择一张图片并建立一个txt文件用于存放识别结果 

进入到存放图片的目录

在命令行界面键入命令 

格式: tesseract 图片名称 生成的结果文件的名称  字库 

例如:tesseract test.jpg result -l chi_sim

打开result.txt即可查看识别结果
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: