tesseract-ocr ubuntu 安装使用
2015-08-28 20:23
501 查看
tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我的安装步骤
其实官方文档上说的很细,下面列出其中的命令,
[plain]
view plaincopy
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
[plain]
view plaincopy
sudo apt-get install libleptonica-dev
下载源文件包解压(目前是3.0),进入目录
[plain]
view plaincopy
./runautoconf
./configure
make
sudo make install
下载语言数据包解压:你可以在这找到更多的语言包
[plain]
view plaincopy
gzip -d eng.traineddata.gz
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
[plain]
view plaincopy
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
[plain]
view plaincopy
apt-get install imagemagick
你可以使用下面的命令转换图片
[plain]
view plaincopy
convert a.jpg a.tif
好了,测试一下吧
[plain]
view plaincopy
tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
[plain]
view plaincopy
tesseract a.tif a -l chi_sim
cat a.txt
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行
[plain]
view plaincopy
sudo ldconfig
结合项目可使用开源项目:
https://github.com/thiagoalessio/tesseract-ocr-for-php
其实官方文档上说的很细,下面列出其中的命令,
[plain]
view plaincopy
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
[plain]
view plaincopy
sudo apt-get install libleptonica-dev
下载源文件包解压(目前是3.0),进入目录
[plain]
view plaincopy
./runautoconf
./configure
make
sudo make install
下载语言数据包解压:你可以在这找到更多的语言包
[plain]
view plaincopy
gzip -d eng.traineddata.gz
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
[plain]
view plaincopy
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
[plain]
view plaincopy
apt-get install imagemagick
你可以使用下面的命令转换图片
[plain]
view plaincopy
convert a.jpg a.tif
好了,测试一下吧
[plain]
view plaincopy
tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
[plain]
view plaincopy
tesseract a.tif a -l chi_sim
cat a.txt
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行
[plain]
view plaincopy
sudo ldconfig
结合项目可使用开源项目:
https://github.com/thiagoalessio/tesseract-ocr-for-php
相关文章推荐
- java的锁机制
- 有关C语言程序内存问题的5条规则
- Android生命周期
- loadrunner 录制脚本时events始终为0
- EL函数以及自定义标签的应用
- [POJ 2236]Wireless Network[并查集]
- Hibernate面试题+答案
- uva 11988 链表 OR 块状链表
- 2015/8/18 Python基本使用(2)
- 详解 CALayer 和 UIView 的区别和联系
- Logistic Regression and Newton's Method Exercise
- Scala学习第五天 Scala数组操作实战详解
- Python实现KNN算法
- MyEclipse6.5下struts2+spring2+hibernate3 整合
- Ubuntu14.04安装后vim不可用的问题
- Android应用如何开机自启动、自启动失败的原因
- Ascii表中字符的个数
- 线段树 区间更新 访问POJ3468 A Simple Problem with Integers解题报告
- 分析json、xml的区别?json、xml解析方式的底层是如何处理的?
- UGUI处理ScrollRect的滑动被OnDrag函数拦截的一点技巧