Extremal Region(极值区域)文本定位与识别法-学习笔记(二)
2015-02-07 15:01
316 查看
最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。
Reference: Real-TimeScene Text Localization and Recognition Luk´aˇs Neumann Jiˇr´ı Matas 2012 IEEE
Extremal Regions
下面是一些用到的基本数学概念(有些枯燥):
将一幅图像I视为一种映射:
图像I的一个通道C的映射为:
fc:v-->s 是像素值到一个完全有序集合的投影。
A代表一种邻接关系,
。在该论文中使用4领域像素,即坐标为(x+1,y),(x-1,y),(x,y+1),(x,y-1)的像素与(x,y)像素是相邻的。
(pAq表示p与q邻接)
图像I或者通道C的区域R,是一个D的连续子集:
(即R中的任意两个不同像素,一定可找到一条两两邻接的像素序列将其联结起来)
∂ R:区域外边界,是与区域R相邻接但不属于R的像素集合:
极值区域Extremal Region (ER) 是指区域外边界的像素值严格大于区域内像素值的区域:
θ表示Extremal Region的阀值.
在θ阈值下的极值区域 r是θ-1阈值下的极值区域与像素值为的像素的并集:
Rθ-1示θ-1阈值下的极值区域(ERs)
.
由上可看出ERs(极值区域)之间的包含关系。每一个极值区域ER都有一个或多个先继极值区域(当仅包含单一值的像素时,则没有先继极值区域),以及唯一一个后继极值区域ER(最终的后继极值区域是阈值为255时,它包含图像中的所有像素)。
在本论文中,比较了RGB与HIS空间,以及一个强度梯度通道∇。强度梯度通道的每个像素值是I空间中该像素与邻接像素的强度差的最大值:
本论文在运行时间与定位效果之间折中,选择了HIS以及强度梯度∇四个通道的组合。
To be continued...
Reference: Real-TimeScene Text Localization and Recognition Luk´aˇs Neumann Jiˇr´ı Matas 2012 IEEE
Extremal Regions
下面是一些用到的基本数学概念(有些枯燥):
将一幅图像I视为一种映射:
图像I的一个通道C的映射为:
fc:v-->s 是像素值到一个完全有序集合的投影。
A代表一种邻接关系,
。在该论文中使用4领域像素,即坐标为(x+1,y),(x-1,y),(x,y+1),(x,y-1)的像素与(x,y)像素是相邻的。
(pAq表示p与q邻接)
图像I或者通道C的区域R,是一个D的连续子集:
(即R中的任意两个不同像素,一定可找到一条两两邻接的像素序列将其联结起来)
∂ R:区域外边界,是与区域R相邻接但不属于R的像素集合:
极值区域Extremal Region (ER) 是指区域外边界的像素值严格大于区域内像素值的区域:
θ表示Extremal Region的阀值.
在θ阈值下的极值区域 r是θ-1阈值下的极值区域与像素值为的像素的并集:
Rθ-1示θ-1阈值下的极值区域(ERs)
.
由上可看出ERs(极值区域)之间的包含关系。每一个极值区域ER都有一个或多个先继极值区域(当仅包含单一值的像素时,则没有先继极值区域),以及唯一一个后继极值区域ER(最终的后继极值区域是阈值为255时,它包含图像中的所有像素)。
在本论文中,比较了RGB与HIS空间,以及一个强度梯度通道∇。强度梯度通道的每个像素值是I空间中该像素与邻接像素的强度差的最大值:
本论文在运行时间与定位效果之间折中,选择了HIS以及强度梯度∇四个通道的组合。
To be continued...
相关文章推荐
- Extremal Region(极值区域)文本定位与识别法-学习笔记(三)
- Extremal Region(极值区域)文本定位与识别法-学习笔记(四)
- Extremal Region(极值区域)文本定位与识别法-学习笔记(一)
- Extremal Region(极值区域)文本定位与识别法-代码分析(一)
- matlab实现MSER(最大极值稳定区域)来进行文本定位
- matlab实现MSER(最大极值稳定区域)来进行文本定位
- OCR开源库(文本区域定位和文本识别):github
- matlab实现MSER(最大极值稳定区域)来进行文本定位
- OCR开源库(文本区域定位和文本识别):github
- mser 最大稳定极值区域(文字区域定位)算法 附完整C代码
- mser 最大稳定极值区域(文字区域定位)算法 附完整C代码
- 关于IE中超链接绝对定位无法识别点击区域
- 字符识别OCR研究三 字符识别,字符区域定位 经验总结:
- OpenCV仪表数据识别(二):数字区域自动定位
- Opencv车牌识别之车牌区域定位(一)
- 字符识别OCR研究 字符识别,字符区域定位
- < openCV > 最大稳定极值区域(MSER-Maximally Stable Extremal Regions)
- 关于IE中超链接绝对定位无法识别点击区域
- [置顶] OCR开源库(字幕区域定位和字幕识别):github
- IE中超链接绝对定位无法识别点击区域