python + tesseract OCR 文字识别
2017-12-22 22:43
447 查看
1.环境准备
——windows7 64位
——python 2.7
——tesseract-ocr,是google管理的开源项目。可以在这里获取https://github.com/tesseract-ocr/tesseract/wiki/Downloads,这里我们下载4.0版本。https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下载完成后按照默认设置安装。
安装完毕后,需要配置2个环境变量。
1.path中添加tesseract.exe所在目录
2.增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;
安装详细步骤,可参考https://www.cnblogs.com/jianqingwang/p/6978724.html
——pytesseract,是tesseract的python库所以,使用pip即可安装这个库。同时我们还需要PIL用于图像处理,在没有PIL的情况下,tesseract只支持bmp图片。PIL现在改名为pillow,在pip安装的时候,需要注意名称。
2.tesseract的应用
以上代码可以识别test.png的文字,lang参数表示language,eng表示英文,config参数为识别方式,可以在cmd中执行tesseract,可以看到-psm的值表示的识别方式,这里-psm 7表示识别为单行文字
——windows7 64位
——python 2.7
——tesseract-ocr,是google管理的开源项目。可以在这里获取https://github.com/tesseract-ocr/tesseract/wiki/Downloads,这里我们下载4.0版本。https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下载完成后按照默认设置安装。
安装完毕后,需要配置2个环境变量。
1.path中添加tesseract.exe所在目录
2.增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;
安装详细步骤,可参考https://www.cnblogs.com/jianqingwang/p/6978724.html
——pytesseract,是tesseract的python库所以,使用pip即可安装这个库。同时我们还需要PIL用于图像处理,在没有PIL的情况下,tesseract只支持bmp图片。PIL现在改名为pillow,在pip安装的时候,需要注意名称。
pip install pillow pip install pytesseract
2.tesseract的应用
import pytesseract from PIL import Image code = image_to_string(Image.open('test.png'), lang="eng", config="-psm 7") print code
以上代码可以识别test.png的文字,lang参数表示language,eng表示英文,config参数为识别方式,可以在cmd中执行tesseract,可以看到-psm的值表示的识别方式,这里-psm 7表示识别为单行文字
相关文章推荐
- Python_文字识别引擎试用:tesseract-ocr
- Python图像处理之图片文字识别(OCR)
- OpenCV+Tesseract进行OCR学习(二)文字识别
- Python--文字识别--Tesseract
- Tesseract 3.02 OCR文字识别调查记录
- 文字识别引擎试用:tesseract-ocr
- 使用Tesseract OCR Engine识别图片文字
- python图像上面字符的识别之tesseract—OCR和中文包的下载使用
- Java中使用tess4J(Tesseract-OCR)进行图片文字识别(支持中文)
- TesseractOCR 文字识别 自定义拍照界面(AVFoundation)
- NET 2.0 OCR文字识别技术(Tesseract 引擎)
- Python 3调用百度OCR API实现剪贴板文字识别
- mac上文字识别(Tesseract-OCR for mac )
- tesseract 4.0 ocr图像识别利器,可识别文字。图片越高清越准确
- NET 2.0 OCR文字识别技术(Tesseract 引擎)[转]
- 使用Tesseract-OCR 进行文字识别
- python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别
- 用命令行去自动识别图片中的文字tesseract-ocr
- .NET 2.0 OCR文字识别技术(Tesseract 引擎)
- py库: Tesseract-OCR(图像文字识别)