您的位置:首页 > 其它

ORC工具解析图片文字

2016-10-20 15:53 218 查看
看到好多人使用ORC解析图片,感觉准确率不是很高,但是网上都讲的比较复杂,我的理解就是两步。

安装工具、调用工具

1.解析工具下载

里面包含 ORC3.0安装包以及中文库,另附带两个jar包用于图形处理,此工具为绿色版

http://download.csdn.net/detail/xiekuntarena/9659084

安装完毕之后,需要将中文库chi_sim.traineddata复制到tessdata文件夹下

2.CMD命令实现调用

解析的图片与放置的路径如下图:



需解析的图片已放置在ORC目录下

CMD执行:
D:/Tesseract-OCR/tesseract D:/Tesseract-OCR/3.PNG D:/Tesseract-OCR/3 -l chi_sim


第一个参数:tesseract为ORC的执行exe

第二个参数:图片的路径

第三个参数:生成结果的文件地址,默认格式为.txt

第四个参数:-l (L) chi_sim 表示使用中文库解析

3.JAVA代码实现

package testcase;
import java.io.IOException;
public class TestCase {
public static void main(String[] args) {
try {
String strCmd =
"D:/Tesseract-OCR/3.PNG " +
"D:/Tesseract-OCR/3 "+
"-l chi_sim";
System.out.println(strCmd);
Runtime.getRuntime().exec(strCmd);
} catch (IOException e) {
e.printStackTrace();
}
}
}


执行结果如下图:



可看出,关注–》关汪 解析的不准确

可通过对图片进行拉伸、翻转、缩放、明暗、灰度,将每一种图片进行解析并得出结果,取多次解析结果进行分析。具体怎么做,大家可以研究研究。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息