APP下载

一种具有反馈机制的名片信息分类方法

2012-06-01

电子科技 2012年1期
关键词:字符识别子集名片

金 鑫

(南京航空航天大学计算机科学与技术学院,江苏南京 210016)

日常商务活动中,名片的使用率较高,手工录入名片信息耗时费力又容易出错,因此利用手机和PDA对名片进行自动识别和存储具有一定的实际应用价值。理想的名片识别系统可分为4个模块:图像预处理模块、版面分析模块、字符识别模块、信息分类模块,完整流程如图1 所示[1]。

图1 流程图

与技术相对成熟的预处理和字符识别环节相比,版面分析和识别后信息分类还有很多可以深入挖掘的地方。从图1可以看出,信息分类的结果不能立刻作为最终结果导入数据库,因为版面分析或字符识别阶段产生的错误会带到信息分类的环节。一个成熟的名片识别系统,应具有错误反馈和自动纠正的机制。一般情况下信息分类模块发现的错误会反推到上一层字符识别,然后针对某一文字块进行再识别和再分类处理。文中提出一种利用版面信息作为辅助决策的信息分类方面,并将信息分类后的出错处理进一步反推到版面分析环节。实验表明,改进后的方法能有效提高名片的识别率和信息分类正确率及系统的自动纠错能力[2]。

1 常见名片信息分类算法简介

1.1 信息分类模块介绍

名片图像经过预处理和版面分析后得到相对独立的信息块,如图 2 所示[3]。

图2 相对独立的信息块

字符识别模块对文字块切分出的单个字符进行识别,但识别出的单个字符在未组织成有效信息之前是没有意义的。名片识别的最终结果不是单个字符而是经过正确分类后与基本信息项相对应且具有语义的信息。信息分类模块按照每条信息的属性对其归类和存储。名片图像经过字符识别后,送入信息分类模块的是一些文本及相关信息。它们除了包含识别出的字符信息外,一般还包括识别的置信度,文本外接矩形框的大小,每行文本在名片中的位置,这些辅助信息在信息分类的过程中可以起一定的参考作用。同时,版面分析和字符识别阶段产生的错误会被带入信息分类模块,所以该模块还应该具备向上层反馈错误,提供纠错信息的功能。提出的方法是如何在传统基于语义理解的信息分类方法上利用版面分析信息作为辅助决策,并将这一步得到的分类结果反馈于版面分析和字符识别环节,提高了识别率的同时,增强系统的自动纠错能力[4-5]。

1.2 常见名片信息分类方法和不足

在名片流行之初,版式单一,传统的模板匹配算法配合少量关键词的提取能够满足绝大部分名片信息分类的需求。但随着名片版式的多样化,模板匹配的方法不再适用。

目前比较流行的是基于语法模式识别的信息分类方法。从语法的角度来讲,名片信息都是短语,短语的骨架是一个或多个关键词。对于属性相同的信息项,其关键词都具有相同或类似的语义,这些关键词构成了一种语法模式。语法分析的目的就是抽取名片各个文字域的语法模式。

关键词的提取一般使用最大正向匹配的方法,根据预定义的关键词词典对各个文字域查找。对关键词的查找是按照候选链表进行的,如表示Email的关键词列表为{电子邮箱,E - mail,eMail,E - Mail,邮箱,@},找到关键词后,根据语法规则对各个关键词进行筛选,确定最匹配的关键词,并用它标注对应的文本。

在识别效果比较好的情况下,基于语法分析和关键词库的方法可以解决大部分文本内容的分类问题。但基于语法分析方法的显著缺点是需要手工建造知识库,且封闭的规则不适应灵活开放的自然语言的变化。在处理内容相对复杂的中文文本块时,分类效果不理想,而当文本块中出现识别错误和版面错误时,其性能会严重下降。

2 利用版面信息辅助分类和错误纠正

通过对200张实际名片图像的统计,以下几种文本块同时出现的几率较大[6-8]:

(1)姓名文本和职务文本的上下,左右相邻关系。

(2)被错误切分的先导词和内容文本之间的左右相邻关系。

(3)公司文本和上边界之间的上下相邻关系。

(4)邮编和地址的上下关系。

实验统计的信息子集有:姓名、职称、单位、地址、电话、电子邮箱。经过统计可以得到不同信息子集项之间位置转移概率,可以用一阶马尔可夫过程近似描述。

因为送入文本分类模块的文本信息除了文本的字符识别信息还有文本的位置和外接矩形框大小信息。通过迭代计算待分类的文本块与信息子集项的统计位置信息得到一个相合度最高的分类及置信度,这是信息分类和错误反馈的重要参考信息。

对最终文本分类的判断,使用基于启发式规则的隶属度迭代决策机制。所谓隶属度是指某文本块对于某一信息项子集的隶属程度。隶属度的值在区间[0,1]内,若一个文本块对某一信息项子集的隶属度为0,则表示该文本块肯定不属于该信息项子集,同样,若一个文本块对某一信息项子集的隶属度为1,则表示该文本块肯定属于该信息项子集。所以要为文本块维持一个隶属度数组。在进行判断之前认为每个文本块对每个信息项子集的隶属度都为0,即隶属度数组的每个成员的初值都为0。接下来,采用一组启发式规则增加或减小文本块对于某一信息项子集的隶属度。

按照规则的知识来源,可以将规则分为“自身规则”和“相邻规则”。前者是根据文本块自身的知识信息增加或减少对某一信息项的隶属度。后者则是根据文本块的属性或某些知识信息增加或减少对某一信息项的隶属度。文本块中的关键词属于自身规则,在本文的的判别方法中,关键词仍占有较大权重;而文本块的相邻规则体现了文本块之间的“相互作用”,若已经判定某一文本块为姓名的隶属度超过了一个较大的阈值,则处于同一列相邻位置或同一行相邻位置的文本块对于“职称”的隶属度就会有相应的增加。至此对于同一文本块得到两个隶属度,一个由语法模式分析得到,一个由版面文本块之间的位置关系得到,将这两个隶属度按权重归一化到[0,1]区间,权值的选取要根据实验效果多次尝试,文中按“自身规则”0.7,“相邻规则”0.3的权重分配取得良好的效果。

按最大隶属原则和阈值原则对文本块的属性作出判断。假设文本块X对于信息项子集的隶属度为μi,如果μi满足如下条件,则认为X∈I:

(1)ui>uj,i≠j,1≤i≤n,1≤j≤n,其中n为信息项子集的总数。

(2)ui>uTh,uTh为预先设定的阈值。

按照上述判断规则,如果一文本块不能归入任何一个信息项子集,则考虑在上层处理中出错。首考虑字符识别模块的错误,将无法正确分类的文本块回送给字符识别模块重新识别。新的识别结果如果还是不行,则进一步考虑是否在版面分析模块出错。因为版面分析模块无法借助语义信息,所以可能出现如下错误的划分,如图3所示。

图3 错误的划分

此时会出现两个文本块无法被分类的情况,其中一个具有多个关键词。所以在向版面划分模块反馈错误信息时,除了传递出错文本块的标识、大小和位置外,还要附上可能的错误类型,如上例中的关键词过多(TOO_MANY_KEYWORDS),版面分析模块对这些错误最可能的处理是,将该模块和最相邻的模块考虑横向切分。实验表明这种错误反馈机制能有效提高名片识别系统的纠错能力,降低误识别率和不能识别率。

3 名片信息分类模块的最终结构

在基于启发式规则分类的基础上,增加了版面信息辅助分类,建立如图4所示的信息分类结构,提高了系名片识别统信息分类的性能。

图4 信息分类结构

4 实验数据及结果

为验证利用版面信息来帮助分类,并利用不能分类的信息用于纠错和再识别分类,选取100张实际名片,作了一个对比测试。

表1 实验数据及结果

测试中比较了是否有加版面信息和反馈机会对分类模块最终性能的影响。可以看到,在显示的几个主要类别中,各项指标都有不同程度的上升。无版面信息反馈机制的情况下分类正确率为96.8%,有版面信息反馈机制的情况下正确率为98.9%。

5 结束语

主要介绍了利用文本在名片图像中的版面位置信息来辅助分类,并将出错的情况反馈于版面分析和字符识别过程的方法。试验表明这个新算法明显提高了名片文本信息分类的准确性。而且经过这个分类处理后,名片文本变成了条目清晰的信息项,为查询检索奠定了基础。

[1]林晓帆,丁晓青,吴佑寿.名片自动录入系统的实现[J].数据采集与处理,1998,13(2):163 -167.

[2]徐锐义,吴 炜,何小海,等.中文商务名片版面分割研究[J].四川大学学报,2008,45(2):331 -335.

[3]LIN Lin,CHEW Lim Tan.Text extraction from name cards with complex design[C].Proceeding of the 2005 Eight International Conference on Document Analysis and Recognition,2005:977 -980.

[4]KRISHNAMOORTHY M S,NAGY G,SETH S C,et al.Syntactic segmentation and labeling of digitized pages from technical journals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(7):737 -747.

[5]LIN X,DING X,WU Y.Automatic input system for chinese business cards[C].Proc of 7th ICCPOL,HongKong,1997:277-280.

[6]刘昊.基于背景描述的中文版面分析方法的研究[D].哈尔滨:哈尔滨工业大学,1999.

[7]田学东,郭宝兰.基于组合特征的中文版面分析[J].中文信息学报,1999,13(4):22 -28.

[8]张纯,张涛,黄笑.中文商务名片识别系统的实现[J].中文信息学报,2000,14(2):22 -26.

猜你喜欢

字符识别子集名片
包包,也可以是你的名片
我家的环保名片
拓扑空间中紧致子集的性质研究
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
一种改进深度学习网络结构的英文字符识别
不会丢的创意名片
仪表字符识别中的图像处理算法研究
基于CUDA和深度置信网络的手写字符识别
每一次爱情都只是爱情的子集