您的位置:首页 > 理论基础

Extremal Region(极值区域)文本定位与识别法-学习笔记(二)

2015-02-07 15:01 316 查看
  最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。

Reference: Real-TimeScene Text Localization and Recognition  Luk´aˇs Neumann  Jiˇr´ı Matas 2012 IEEE

Extremal Regions

下面是一些用到的基本数学概念(有些枯燥):

将一幅图像I视为一种映射:



         图像I的一个通道C的映射为:



fc:v-->s 是像素值到一个完全有序集合的投影。

  A代表一种邻接关系,

。在该论文中使用4领域像素,即坐标为(x+1,y),(x-1,y),(x,y+1),(x,y-1)的像素与(x,y)像素是相邻的。

pAq表示p与q邻接

图像I或者通道C的区域R,是一个D的连续子集:



(即R中的任意两个不同像素,一定可找到一条两两邻接的像素序列将其联结起来)

 ∂ R:区域外边界,是与区域R相邻接但不属于R的像素集合:



 
极值区域Extremal Region (ER)
是指区域外边界的像素值严格大于区域内像素值的区域:



θ表示Extremal Region的阀值.

在θ阈值下的极值区域 r是θ-1阈值下的极值区域与像素值为的像素的并集:



Rθ-1示θ-1阈值下的极值区域(ERs)
.

由上可看出ERs(极值区域)之间的包含关系。每一个极值区域ER都有一个或多个先继极值区域(当仅包含单一值的像素时,则没有先继极值区域),以及唯一一个后继极值区域ER(最终的后继极值区域是阈值为255时,它包含图像中的所有像素)。

在本论文中,比较了RGB与HIS空间,以及一个强度梯度通道∇。强度梯度通道的每个像素值是I空间中该像素与邻接像素的强度差的最大值:



本论文在运行时间与定位效果之间折中,选择了HIS以及强度梯度四个通道的组合。



To be continued...
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  计算机视觉 OCR ER