您的位置：首页 > 其它

关于OCR，一些想法

2013-11-08 11:03 134 查看

OCR一般分为两种：

1，根据给定的字符特征集合，提取未知字符的特征进行匹配识别；（典型例子：GOCR）

2，不知道字符特征，但给出提取特征的规则，通过机器学习training来获取某个字符集的特征集，对未知字符进行匹配识别。；（典型例子：tesseract）

第一种方法简单，在某些场合很高效，但比较局限，字符集不能太大，比如汉字，不可能每个字符都去人工的找特征，只能是用在字符集较小的情况。第二种方法比较通用，可以应用于任何字符集，但是在前期训练的过程中必须人工教导，后期识别过程与第一种方法类似。

tips：网站验证码可以随机的或正或反或倾斜的字符，现在的OCR都没有考虑对付这种情况，因此maybe是种对付roberts的好方法，当然，英文字符有些字符不能倒，比如U，倒过来就变成n了。所以，最好是汉字吧。活动下脊椎，哈哈。那啥，版权所有，附上本页链接即可随便传用。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航