您的位置：首页 > 编程语言 > Python开发

python + tesseract OCR 文字识别

2017-12-22 22:43 447 查看

1.环境准备

——windows7 64位

——python 2.7

——tesseract-ocr，是google管理的开源项目。可以在这里获取https://github.com/tesseract-ocr/tesseract/wiki/Downloads，这里我们下载4.0版本。https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下载完成后按照默认设置安装。

安装完毕后，需要配置2个环境变量。

1.path中添加tesseract.exe所在目录

2.增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

安装详细步骤，可参考https://www.cnblogs.com/jianqingwang/p/6978724.html

——pytesseract，是tesseract的python库所以，使用pip即可安装这个库。同时我们还需要PIL用于图像处理，在没有PIL的情况下，tesseract只支持bmp图片。PIL现在改名为pillow，在pip安装的时候，需要注意名称。

pip install pillow
pip install pytesseract

2.tesseract的应用

import pytesseract
from PIL import Image

code = image_to_string(Image.open('test.png'), lang="eng", config="-psm 7")
print code

以上代码可以识别test.png的文字，lang参数表示language，eng表示英文，config参数为识别方式，可以在cmd中执行tesseract，可以看到-psm的值表示的识别方式，这里-psm 7表示识别为单行文字

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python pytesseract t

相关文章推荐

新的分享

章节导航