您的位置:首页 > 其它

名片自动录入系统的实现(转载)

2005-12-29 19:37 190 查看
名片自动录入系统的实现
林晓帆 丁晓青 吴佑寿

(清华大学电子工程系图象教研组 北京,100084)

摘要

本文介绍了一个名片自动录入系统,它能利用名片版面的位置信息和名片知识分析名片版面属性,然后对分割的各区域进行字符识别,并对识别结果做基于名片知识和词语的后处理,最后从识别结果中提取有用信息录入到数据库的相应字段,完成名片数据库的自动录入。文中着重介绍基于模板匹配的版面分析算法和基于句法分析的后处理算法,同时也讨论了系统的构成。



关键词: 模式识别;光学字符读出器;后处理;版面分析;句法分析

中图分类号:TP391.4

引言

近几年来,随着技术的进步,尤其是计算机技术的飞速发展,汉字识别技术已取得了许多可喜的成果,初步进入实用化的阶段。现在在印刷体汉字OCR领域,除了对识别核心做进一步的发展与完善,另一个研究方向就是如何把现有的识别方法应用到更多的地方。[1]中就介绍了一个通用的表格识别系统。本文将介绍基于印刷体汉字识别的一种新的应用---名片自动录入系统。

随着市场经济的不断深入,经济交往越来越频繁。名片作为一种简明、美观的信息载体日益流行。但问题也因此产生:人们面对手头一大堆名片,很难查找自己所要的信息。因此对名片进行自动录入并查询管理是非常必要的,本文就是在名片的自动录入上做一尝试。由于信息的查询管理需要借助于数据库,为此仅仅得到名片识别后的文本是不够的,系统应当能自动地从识别结果中抽取有关信息填到预先定义好的字段里。

为了实现这一目标,我们把录入过程分为五个阶段:图象采集、图象预处理、版面分析、字符识别、后处理并录入数据库。下面主要介绍其中的几个关键处理算法,然后对整个系统的实现做简要说明。



1.名片版面的自动分析

1.1 名片版面分析的特点:

版面分析是实用的文字识别软件不可缺少的组成,已有很多成熟的算法[2]。但我们不能直接套用这些针对一般文本的方法,这是因为通常的版面分析仅利用字块间的空白信息,这对名片识别是很不够的。比如:中文名片上姓名往往用大字号,而且字间距很大,只用空白信息就会把它分成独立的几块。另外,这样无法给出各块的属性,不利于录入数据库。解决这个问题的方法是把名片版面的特殊知识和空间信息结合起来。下面先看看名片版面的特点:

名片在不大的面积上集中了众多的信息,各种信息往往会在一定位置上分布,从而使版面可以被大致分为单位块、姓名块、职称块、地址块等,而且块的大致位置也有规律性,如:姓名往往与职称放在一起,地址块多在名片的下部,单位块大多在上中部。名片上除含有上述基本信息外,为了美观还常有其它装饰性要素,主要有两种:图标和水平分隔线。其中图标多为单位的标志,水平分隔线起内容分割作用。名片版面的一个重要特点是:各块的相对位置较为稳定。根据收集到的308张名片得到下面的分类结果:

1.2 名片版面分割算法:

以上分类提示我们可以用模板匹配的方法解决版面分析的问题。把上面的六类版面作为模板(T1,T2,T3,T4,T5,T6),对输入的名片进行匹配,看它属于哪一种。一种最直接的想法是顺序匹配,但这样做在最坏情况下要匹配六次,速度无法接受(因为底层操作是象素的投影,相当费时)。考虑各模板间有相似性,可以用决策树实现模板匹配。

(1)由上到下进行垂直方向投影,当发现某一空白大于d0时认为找到第一块,否则版面属于T7,退出;

(2)对余下部分作垂直方向上投影 ,若可分则找到第二块 ,其版面类型可能是T1、T2、T3、T4;若垂直方向投影不可分 ,则进行水平投影 ,若可分则找第二块,其版面类型是T5、T6;若两方向均不可分则是T7;

(3)若属于T1、T2、T3、T4,对剩余部分作水平投影,若可分确定为T1、T4,否则是T2、T3;

(4)利用进一步的投影把T1和T4分开,T2和T3分开;

(5)用一些细特征可消除水平分隔线和图标的影响,并把姓名和职称分开。

1.3 算法实现和结果:

取100张版面属于T1-T6模板的名片进行扫描分割,结果如下:

错分的主要原因有:(1)不在前面所举的六类之中;(2)空白信息没有达到门限。在实际系统中提供交互式环境,操作人员发现误分后可用鼠标改正。

从上面的统计看,对属于算法考虑的六类名片完全分对的可能性是91%,考虑到名片版面的复杂性这一结果还是满意的。速度是我们很关心的一个问题,决策树的采用大大提高了速度,在486微机上分割时间小于2秒,满足实用要求。图1是版面分析的一个例子。

2.字符识别

目前我们以清华文通OCR5.0版识别算法[3][4]作为字符识别部分的基础。该识别方法经过长期研究、完善,性能稳定, 能同时识别多字体、多字号的汉字、英文、数字, 对一般质量的印刷文本识别率在98%左右。这些都非常有利于名片上文字的识别,从实验效果看,这样做基本能满足要求。但由于现有很多名片印刷质量不高,往往采用了一些不规范的变体, 字母、汉字、数字混排现象很多,姓名中常有国标二级汉字,有些名片上同时印有简体、繁体字符,这些都给识别增加了许多困难。进一步提高识别率的一个途径是针对名片上字体特点研究专门的字符识别程序。

3.后处理和录入数据库

姓名块、职称块、单位块的识别结果可与数据库中的字段直接对应,但地址块就复杂多了,有住址、电话、电传、传真、邮政编码等多项内容,这些内容无法用版面分析分开(这就是前面把它们放在一起作版面分析的原因),只能*对识别结果上下文的理解。一般的语言理解是很困难的,幸好这里我们面对的是一个特殊的问题。最明显的一点是各字段多以明显的先导词开头,如:电话号码前常见“电话”、“TEL”、“PHONE”等字样。但实验表明只利用先导词匹配结果并不好,原因是:(1)尽管字符识别程序的单字识别率很高,但对多个字符组成的先导词则不一定能认对;(2)光*先导词容易错分,例如:会因先导词“TEL”的存在把“TELEVISION STATION”看成电话号码。改进的方法是进行细致的句法分析,地址块的文本有下面的结构:

〈地址块〉::=〈字段1〉|〈字段2〉|〈字段3〉...

〈字段i〉::=〈先导词〉|〈分界符〉|〈内容〉

〈内容〉::=〈字符1〉|〈字符2〉|〈字符3〉...

分界符集合={':','.',' '}

先导词、内容由字段种类决定,例如对电话字段有:

先导词集合={'电话','TEL','PHONE'...}

内容字符集={数字,'(',')','-',' ','.'}

基于上面的句法分析可以得到下面的字段抽取模型:

注意,这里采用了先导词的容错匹配,即:只要有先导词的部分字就认为找到了先导词。之所以能这样做是因为后面还要判决内容的合法性,不必担心先导词找错了。这种基于句法分析的字段抽取算法有很强的鲁棒性,在字符识别效果一般的情况下都能正确提取出各字段。

后处理的另一个作用是以针对名片的专用词库和规则库为基础,自动校对识别结果,修改明显的错误。下面给出一个后处理的例子,其中加下划线的字识别程序认错了,但通过后处理均被纠正了。



处理前:地址:中国北京复兴门外罗道庄

话:81.0631(总机)

8I,2105(直拨)

电挂:8681

邮政码:1000S6



处理后:地址字段[中国北京复兴门外罗道庄]

电话字段[81.0631(总机)81. 2105(直拨)]

电挂字段[8681]

邮政编码字段[100086]



4.系统实现



前面介绍了处理的关键算法,但作为一个完整的系统,还必须有其它组成部分。

本系统的图象输入采用专用的卡片扫描仪,可以得到9cm*6cm幅面的灰度图象。由于名片上的数码往往很小(多为六、七号字),为能使后续的单字识别顺利进行,用400DPI扫描,这样数码图象可以满足识别要求。之后的处理全部在微机上用纯软件实现。首先对原始图象进行自适应二值化,确保对大多数名片能得到清晰的二值图象,然后进行自动倾斜校正,以便能处理放置倾斜的名片。接着用前面提到的算法作自动版面分析、字符识别、后处理,最后录入数据库。图3是处理流程:

图3
本系统有内建的图文数据库管理功能,可以存储名片上各字段的文字信息,并以约7倍的压缩率存储名片图象,提供了查找、排序、浏览、输出等基本功能。整个软件在Windows环境下运行,具有良好的用户界面,现在已基本完成了商品化。实用情况令人满意:自动录入一张名片(从扫描到完成识别)在486微机上仅仅要40秒,而一般人员(每分钟输入十几个汉字)手工完成要几分钟。可见,本系统有着良好的应用前景。



5.结论



本文介绍了一个名片自动录入系统的方法和实践,是在特定种类文本智能理解上的一次尝试。由于办公自动化程度的进一步提高,人们将不再满足于简单的识别,而希望将识别技术与数据库技术结合起来,这正是本系统的出发点。事实上,日本、美国、台湾等地已有识别日文[5]、英文名片的系统,但在本系统前还未见到适合中国大陆的汉字名片识别系统。



参考文献

1

Liu J H, Ding X Q, Wu Y S. Description and Recognition of Form and Automated Form Data Entry. Proc. of 3rd ICDAR, Canada, 1995:579-582

2

Pavlidis T, Zhou J. Page Segmentation and Classification. CVGIP: Graphical Models and Image Processing. 1992, 54:484-496

3

Guo H, Ding X Q, Guo F X. Realization of a high-performance bilingual Chinese-English OCR system. Proc. of 3rd ICDAR, Canada,1995:978-981

4

丁晓青,吴佑寿.汉字识别原理方法与实现.北京:高等教育出版社,1992:219-244

5

Saiga H, Nakamura Y, Kitamura Y, Morita T. An OCR System for Business Cards. Proc. of 2nd ICDAR, Japan, 1993:802-805

An Automatic Input System for Business Cards

Xiaofan Lin , Xiaoqing Ding , Youshou Wu

(Department of Electronic Engineering, Tsinghua University,Beijing 100084)

ABSTRACT

A business card recognition system is described in this paper.It uses both position information and layout knowledge of business card to divide it into several blocks with certain attributes.Then the characters in every block are recognized and the result is further processed to classify the text into several predefined fields and to correct possible mistakes . In the post processing the knowledge of business cards and the contextual information is employed. Last, the result is output to a built-in database. Both the key algorithms and the system structure are covered with emphasis on the former.

KEY WORDS:pattern recognition;optical character readers;post processing;layout analysis;syntactic analysis

第一作者简介 林晓帆 男,博士研究生,1971年6月生。

表1 名片版面分类

版面模板

模板编号

说明

所占百分数

单位

姓名及职称

地址1 地址2

T1

单位、姓名及职称、地址三块依次由上至下排列,有两个地址块。本类比重最大。

44.5%

单位

姓名及职称

地址

T2

基本同上,只是地址块仅有一个。

23.4%

姓名及职称

单位

地址

T3

姓名及职称放到最上部,有一个地址块。

1.6%

姓名及职称

单位

地址1 地址2

T4

同3类似,只是多了一个地址块。

0.78%

单位

姓名及职称 地址

T5

单位块在最上部,姓名及职称块与地址并列。

4.68%

姓名及职称

单位 地址

T6

姓名及职称在最上部,单位、地址并列在下部。

0.78%

其它

T7

本类包括:

1.个性化太强,自成一类;

2.版面很紧凑,无法分;

3.分块过于随便,及横竖版混用。

24.2%

表2 版面分析效果

单位块

地址块

姓名职称块

分开姓名和职称

整版全对

正确率

95%

93%

92%

94%

91%

拒分率

2%

0

0

0

0

错误率

3%

7%

8%

6%

9%




图1 版面分析实例






图2 字段抽取过程




图3 名片录入流程
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: