您的位置:首页 > 其它

开源OCR光学字符识别

2015-08-16 00:04 330 查看
纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成。而过去几年,无纸化办公的概念发生了显着的转变。在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存。扫描文档的好处不纯粹是存档理由。为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要。选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制。 OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,再加上OCR软件需要先进的算法将扫描的图像正确翻译成实际的文字,而图像不仅仅含 有文字,它还包含布局、图形和表格,可能会跨越多页。

优秀的开源OCR软件包括:

Tesseract

原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。

OCRopus

Ocropus的(TM)是一个先进的文件分析和OCR系统,采用可插入的布局分析,可插入的字符识别,自然语言统计建模和多语言支持功能。

Cuneiform

Cuneiform 是一个 OCR 文字识别系统的商标,最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。

GOCR

GOCR 是一个开源的OCR光学识别程序。



OCRFeeder

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。



Lios

linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案,可将打印的文档转成可编辑的文本。



相关链接

想通过手机客户端(支持 Android、iPhone 和 Windows Phone)访问开源中国:请点这里

OnlineOCR

NewOCR

Free OCR

图像识别类库 Tesseract OCR

【商业】图片文字识别工具 OCRKit

OCR文字识别系统 Cuneiform for Linux

OCR识别 OCRopus

OCR光学识别程序 GOCR

文字识别工具 Eye

Web文字识别软件 WeOCR

PDF文字识别工具 gscan2pdf

图片文本识别的python模块 pytesser

图片识别文字 ocrstyle

开源 OCR 套件 OCRFeeder

光学文字识别 GNU Ocrad

Python 的 OCR 库 Pyocr

OCR工具 YAGF

TopOCR

SimpleOCR

OCR 使用微软 Office Document Imaging

OCR 使用微软 OneNote 2007

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: