Python_文字识别引擎试用:tesseract-ocr
2013-08-15 09:17
288 查看
tesseract-ocr是一 个OCR引擎,在1985年到1995年由HP实验室开发,后来由google开发并且开源,支持多平台,支持多达40种语言,其中包括中文,支持训练,tesseract-ocr是一个命令行程序,但是也提供多种语言的包装器,如.Net
、Python、Ruby、C、Java,方便集成到程序中使用。
命令行调用很简单:
tesseract.exe <image> <outputName> [-l lang] [configs]
<image>:要识别的图片路径
<outputName>:命令行模式下,tesseract会把识别出来的文字结果保存在一个文本文件中,outputName是该文件的名字,如果值为“lixin”,那么结果会保存在程序根目录下的lixin.txt文件中。
[-l lang]:默认情况下自带了英文的字典,如果想识别中文或者其他语言,需要在下载相应的语言包,并存放在程序“/tessdata”目录下,例如我下载了一个简体中文包,文件名为“chi_sim.traineddata”,解压到“tessdata”目录下,然后该值为:“-l chi_sim”。
[configs]:配置项。
调用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim
经过测试,英文的识别率还是比较高的,但在字体比较小的情况下,识别率很差,我在记事本上输入自己的手机号码,10px字体,然后截图测试,发现识别错误,接着我把原图进行放大到200%,再进行测试,则识别正确;测试中文时,识别率没有英文高,而且同样存在字体不够大时识别错误率高,通过放大图片或者字体均能提高识别率,常规的验证码识别没问题,但是连体字符则无法识别
、Python、Ruby、C、Java,方便集成到程序中使用。
命令行调用很简单:
tesseract.exe <image> <outputName> [-l lang] [configs]
<image>:要识别的图片路径
<outputName>:命令行模式下,tesseract会把识别出来的文字结果保存在一个文本文件中,outputName是该文件的名字,如果值为“lixin”,那么结果会保存在程序根目录下的lixin.txt文件中。
[-l lang]:默认情况下自带了英文的字典,如果想识别中文或者其他语言,需要在下载相应的语言包,并存放在程序“/tessdata”目录下,例如我下载了一个简体中文包,文件名为“chi_sim.traineddata”,解压到“tessdata”目录下,然后该值为:“-l chi_sim”。
[configs]:配置项。
调用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim
经过测试,英文的识别率还是比较高的,但在字体比较小的情况下,识别率很差,我在记事本上输入自己的手机号码,10px字体,然后截图测试,发现识别错误,接着我把原图进行放大到200%,再进行测试,则识别正确;测试中文时,识别率没有英文高,而且同样存在字体不够大时识别错误率高,通过放大图片或者字体均能提高识别率,常规的验证码识别没问题,但是连体字符则无法识别
相关文章推荐
- 文字识别引擎试用:tesseract-ocr
- 文字识别引擎试用:tesseract-ocr
- python + tesseract OCR 文字识别
- .NET 2.0 OCR文字识别技术(Tesseract 引擎)
- NET 2.0 OCR文字识别技术(Tesseract 引擎)[转]
- NET 2.0 OCR文字识别技术(Tesseract 引擎)
- Tesseract-OCR光学识别引擎 入门
- Tesseract-OCR 3.05 躲过语言文字识别(运行程序+中英日韩语言包)
- OpenCV+Tesseract进行OCR学习(二)文字识别
- Tesseract-ocr-图片文字识别
- 使用Tesseract-OCR训练文字识别记录
- Tesseract Ocr 引擎识别图形验证码
- 模式识别之ocr---文字识别Tesseract-OCR 进行文字识别 VS2010
- CENTOS 下 编译安装 tesseract-ocr 3.0.4 识别文字
- Python下Tesseract Ocr引擎及安装介绍
- 用命令行去自动识别图片中的文字tesseract-ocr
- Tesseract-OCR 3.0.1训练自己的语言库之图像文字识别
- 【vc++/office ocr引擎】图片文字识别
- Python 3调用百度OCR API实现剪贴板文字识别
- python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别