您的位置：首页 > 理论基础

Extremal Region(极值区域)文本定位与识别法－学习笔记（二)

2015-02-07 15:01 316 查看

最近做一个计算机视觉的项目，要将其中复杂场景中的文本识别率从92%进一步提升，挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文，边在这里记下阅读笔记与翻译内容，慢慢研究。本人英语与专业水平有限，仅供学习参考，欢迎交流，请多指教。

Reference: Real-TimeScene Text Localization and Recognition Luk´aˇs Neumann Jiˇr´ı Matas 2012 IEEE

Extremal Regions

下面是一些用到的基本数学概念(有些枯燥)：

将一幅图像I视为一种映射：

图像I的一个通道C的映射为：

fc:v-->s 是像素值到一个完全有序集合的投影。

A代表一种邻接关系，

。在该论文中使用4领域像素，即坐标为(x+1,y),(x-1,y),(x,y+1),(x,y-1)的像素与(x,y)像素是相邻的。

（pAq表示p与q邻接）

图像I或者通道C的区域R，是一个D的连续子集：

（即R中的任意两个不同像素，一定可找到一条两两邻接的像素序列将其联结起来）

∂ R：区域外边界，是与区域R相邻接但不属于R的像素集合:

　
极值区域Extremal Region (ER) 是指区域外边界的像素值严格大于区域内像素值的区域：

θ表示Extremal Region的阀值.

在θ阈值下的极值区域 r是θ-1阈值下的极值区域与像素值为的像素的并集：

Rθ-1示θ-1阈值下的极值区域（ERs）
.

由上可看出ERs（极值区域）之间的包含关系。每一个极值区域ER都有一个或多个先继极值区域（当仅包含单一值的像素时，则没有先继极值区域），以及唯一一个后继极值区域ER（最终的后继极值区域是阈值为255时，它包含图像中的所有像素）。

在本论文中，比较了RGB与HIS空间,以及一个强度梯度通道∇。强度梯度通道的每个像素值是I空间中该像素与邻接像素的强度差的最大值：

本论文在运行时间与定位效果之间折中，选择了HIS以及强度梯度∇四个通道的组合。

To be continued...

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 计算机视觉 OCR ER

相关文章推荐

新的分享

章节导航