关于OCR,一些想法
2013-11-08 11:03
134 查看
OCR一般分为两种:
1,根据给定的字符特征集合,提取未知字符的特征进行匹配识别;(典型例子:GOCR)
2,不知道字符特征,但给出提取特征的规则,通过机器学习training来获取某个字符集的特征集,对未知字符进行匹配识别。;(典型例子:tesseract)
第一种方法简单,在某些场合很高效,但比较局限,字符集不能太大,比如汉字,不可能每个字符都去人工的找特征,只能是用在字符集较小的情况。第二种方法比较通用,可以应用于任何字符集,但是在前期训练的过程中必须人工教导,后期识别过程与第一种方法类似。
tips:网站验证码可以随机的或正或反或倾斜的字符,现在的OCR都没有考虑对付这种情况,因此maybe是种对付roberts的好方法,当然,英文字符有些字符不能倒,比如U,倒过来就变成n了。所以,最好是汉字吧。活动下脊椎,哈哈。那啥,版权所有,附上本页链接即可随便传用。
1,根据给定的字符特征集合,提取未知字符的特征进行匹配识别;(典型例子:GOCR)
2,不知道字符特征,但给出提取特征的规则,通过机器学习training来获取某个字符集的特征集,对未知字符进行匹配识别。;(典型例子:tesseract)
第一种方法简单,在某些场合很高效,但比较局限,字符集不能太大,比如汉字,不可能每个字符都去人工的找特征,只能是用在字符集较小的情况。第二种方法比较通用,可以应用于任何字符集,但是在前期训练的过程中必须人工教导,后期识别过程与第一种方法类似。
tips:网站验证码可以随机的或正或反或倾斜的字符,现在的OCR都没有考虑对付这种情况,因此maybe是种对付roberts的好方法,当然,英文字符有些字符不能倒,比如U,倒过来就变成n了。所以,最好是汉字吧。活动下脊椎,哈哈。那啥,版权所有,附上本页链接即可随便传用。
相关文章推荐
- 关于数据库主键生成策略的一些想法
- 关于代码版本管理提升开发效率的一些想法
- 关于利用python进行验证码识别的一些想法
- 关于静态构造函数的一些个人想法
- 关于重构的一些想法
- 关于企业开发运维自动化的一些想法
- 关于地形编辑器的一些想法
- 关于面试题的一些想法
- 关于软件测试的一些想法
- 关于软件工程的一些想法
- 关于功能自动化测试的一些想法(持续更新ing)
- 关于面向对象和设计模式的一些想法
- 由CSP 题目引发的关于Map的一些想法
- 关于python的一些想法和疑惑
- 关于备份和还原的一些想法!!!!
- 关于数据库的一些疯狂想法
- 关于算法的一些想法
- 关于Tesseract-ocr使用的一些资源的百度云
- 关于武侠游戏的一些想法(长期整理)
- 关于入门spring/ssm的一些个人想法