您的位置：首页 > 其它

Tesseract-OCR图像识别引擎 windows10使用方法入门

2016-07-15 19:43 701 查看

本文参考借鉴：http://blog.sina.com.cn/s/blog_4aa166780101cji7.html

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程。

Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化，重新发布。当前版本为3.02
官网开源下载地址：http://code.google.com/p/tesseract-ocr。
csdn下载地址：待补充

在Windows 10系统平台下使用cmd命令行结合Tesseract-OCR引擎识别手机号码和图片中的文字:

1、下载安装Tesseract-OCR引擎(3.0.2版本+才支持中文识别)

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录（之后可以通过DOS界面在任意目录运行tesseract）。安装完成后目录如下:

:

温馨提示：

tessdata 目录存放的是语言字库文件，和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文，可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了，请到这里下载即可，简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567下载完成后解压，然后将该文件剪切到tessdata目录下去就可以了。

2、使用Tesseract-OCR引擎识别数字和图片

打开DOS界面，输入tesseract

如果出现如上输出，表示安装正常。

3、使用Tesseract-OCR引擎语法规则

命令格式： tesseract 图片文件绝对路径内容输出文件名称 -l 字库文件

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航