多民族脱机手写体汉字数据库的设计与构建
2011-12-27郑蕊蕊赵继印于为民吴宝春
郑蕊蕊,赵继印,李 敏,于为民,吴宝春
(大连民族学院信息与通信工程学院,辽宁大连 116605)
多民族脱机手写体汉字数据库的设计与构建
郑蕊蕊,赵继印,李 敏,于为民,吴宝春
(大连民族学院信息与通信工程学院,辽宁大连 116605)
设计并构建了一种记录书写者民族信息的手写体汉字数据库——大连民族学院DNU-Ⅰ型多民族脱机手写体汉字数据库。包括单字库、行文本库和段文本库3个子库。为少数民族汉字书写特征分析、中文文档的行切分、汉字的切分识别、中文文本的无切分识别、笔迹鉴别和签名验证等方面的研究奠定基础,并提供算法的验证平台。同时介绍了字符识别数据库的一般构建流程和数据库图像二值化、归一化、行分割等预处理算法,为少数民族文字数据库的构建提供了技术支撑。
脱机手写体汉字识别;数据库;少数民族;图像处理
脱机手写体汉字识别是字符识别领域的研究难点与热点,涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在少数民族语言文字信息处理、办公和教学自动化、银行票据自动识别、邮政自动分拣等技术领域,都有着重要的理论意义和实用价值[1]。标准化的脱机手写体汉字数据库在字符识别研究中起关键作用:一方面,数据库为识别算法提供大量的训练样本和测试样本;另一方面,数据库为不同识别算法的性能比较提供公共平台,有利于公正客观地对比实验结果。因此,建立脱机手写体汉字数据库是研究脱机手写体汉字识别技术的首要环节和基础。
目前国内外的研究机构已建立并公开了4种脱机手写体汉字数据库,分别是ETL-8/ETL-9[2]、HCL2000[3]、HIT - MW[4]和 SCUT -COUCH2009[5]。ETL-8/ETL -9 字符数据库由日本电子工业发展协会收集,包含日文、中文、拉丁文和数字的手写和机器印刷字符,数据库图片有4种不同像素规格。该数据库的不足是不包含书写者信息,并且由于中文和日文的书写习惯差异,该数据库很少用于中文字符识别[4]。HCL2000是由北京邮电大学信息工程系研发的大规模脱机手写汉字数据库系统。该数据库包含了三千多个一级汉字的1300个手写汉字样本和对应书写者的个人信息,每个汉字样本采用64×64个二值像素描述。HCL2000字库是单字字库,与日常手写样本仍存在巨大差别。SCUTCOUCH2009是华南理工大学开发的在线式大规模脱机手写体汉字数据库,通过PDA和智能手机的触摸屏收集手写样本,不仅包含单字库,还有拼音库、单词库、繁体字库和符号库等。SCUTCOUCH2009汉字库虽然包含单字和单词,但没有整段文档,且不包括书写者信息,仍未达到日常手写文本的级别。HIT-MW数据库由哈尔滨工业大学构建,是首个无监督汉字文档数据库,书写内容约200字左右,均选自《人民日报》,因此,HIT-MW数据库中的手写体样本可以看作是真实的手写体样本。HIT-MW数据库同时还包含了样本书写者的性别、年龄和职业信息。
上述4种数据库中,只有HCL2000和HITMW数据库考虑到了书写者个人信息的录入,但都不包含书写者的民族信息。中国是一个和谐统一的多民族国家,藏族、蒙古族、维吾尔和朝鲜族等少数民族不仅使用本民族的语言文字,还能够熟练掌握汉字。我国在研究汉字识别的同时,也积极开展少数民族语言文字的识别与保护研究。汉字与少数民族文字在文字构成和书写行款上有着或多或少的差异:例如,汉字没有圈、点、曲线等笔画,蒙文、藏文和维文却包含大量这种结构元素;汉字目前多采用横向的书写方式,但是蒙文却采用纵向的书写方式。因此,少数民族同胞在使用汉字时,其母语文字会对汉字的书写习惯产生影响。所以,在脱机手写体汉字数据库的构建中,不仅要考虑涵盖更多的汉字样本,还应考虑到样本书写者的民族信息。大连民族学院是国家民族事务委员会直属的,以工科和应用学科为主的民族高等学校,现有在校学生拥有56个民族成份,少数民族学生占60%以上,能够为研发多民族脱机手写体汉字数据库提供强有力的人员和技术保障。
1 数据库样本设计
目前,大连民族学院信息与通信工程学院已完成多民族脱机手写体汉字数据库的Ⅰ期数据库(简称为DNU-Ⅰ)的构建,包括单字、行文本和段文本3个子数据库,书写者为大连民族学院的部分教师和在校学生。为构建脱机手写体汉字数据库首先必须规划样本采集策略,设计满足要求的样本采集卡。由于DNU-Ⅰ数据库包含单字、行文本和段文本3个子库,为了方便后续字符图像预处理,设计两种样本采集卡,即单字采集卡和段文本采集卡,分别如图1和图2。单字采集卡选择《百家姓》和《三字经》的部分篇章作为书写内容,供提取单字字符图像使用。DNU-Ⅰ数据库的段文本采集的书写内容不同于HIT-MW数据库:HIT-MW数据库的书写内容均来自《人民日报》;DNU-Ⅰ数据库的段文本采集卡选择《毛主席诗词》和《牡丹亭》的部分篇章作为书写内容,供提取行文本和段文本图像使用。图1和图2的每种采集卡都包含书写者姓名、性别、年龄、民族、学历和职业等信息,在书写者完全知情并同意的情况下完成样本的采集。如图3是两种采集样本实例。书写者在完全自由的情况下完成样本采集卡指定内容的书写,因此会出现涂抹、文本行倾斜、断句方式不同等现象,如图4,这些都符合实 际书写情况。
图1 单字采集卡 图2 段文本采集卡
图3 样本采集实例
图4 样本不同情况示例
2 图像预处理
原始的采集样本通过EPSON EXPRESSION 10000XL扫描仪在300dpi×300dpi的分辨率下扫描成RGB彩色模型的JPEG图片。但这些图像并不能直接用于字符识别的研究,需经过彩色图像的灰度化、灰度图像的二值化、字符图像归一化、行分割等预处理。
2.1 灰度化和二值化
目前字符的特征提取方法主要针对灰度图像和二值图像。为了便于数据库用户对字符图像进行去噪、细化、特征提取等处理,避免重复操作,必须对扫描的彩色图像进行灰度化,对灰度图像进行二值化处理。
RGB彩色图像是一个包含红、绿、蓝三原色的3维数组。RGB彩色图像转换为灰度图像的原理是将红、绿、蓝三种分量按照一定的比例换算成灰度值,如公式(1)所示:
式中,V代表灰度值,R代表红色亮度值,G代表绿色亮度值,B代表蓝色亮度值。
图像的二值化是将灰度图像通过选定的阈值将图像灰度矩阵转变成只有0或1的逻辑矩阵的方法。阈值的选取是图像二值化的关键,对文档的后续识别处理也有一定的影响。本文采用Otsu法[6]确定阈值。Otsu法的实质是通过迭代法寻找使图像前景和背景两类的类内方差最小的阈值。
2.2 归一化
经过二值化的图像还需要归一化为统一的规格。归一化的尺寸一般由用户根据算法需要自行确定,缺乏相应的准则。实践中,许多研究者和同类数据库都将单个字符图像归一化为64×64像素,因此本数据库将单字库中的字符归一化为64×64像素大小的二值图像。如图5显示了单字库中“赵”字经过灰度化、二值化和归一化处理后的结果。如果数据库用户要研究字符图像的归一化方法,则直接选择原始的扫描图像即可。
图5 单字图像预处理过程
2.3 行分割
行分割又称行切分,是指将汉字以“行”为单位进行分割。汉字切分的研究建立在行文档的基础之上,行分割是汉字切分的前提条件。目前通用的行分割算法是投影法[7]。投影法首先对段文本图像进行行像素点统计,找到全部为白色像素点的行,即为行与行之间的间隔,如图6。但是由于会出现行文本相连接的情况导致行间隔不是全白像素,因此许多学者在投影法的基础上,提出了相应的阈值算法,在某些特定规则下取得了较好的切分效果。本数据库不仅提供段文本供用户研究行分割算法,而且还提供行文本数据库方便用于对字符分割的研究。因此需将数据库的段文本扫描图像分割成单独的文本行,组成行文本数据库。为了提高工作效率,采用Photoshop或“光影魔术手”等专业图像处理软件的图像裁剪功能实现行分割,构建用于字符分隔的行文本数据库,样本如图7。
图6 投影法行分割示意图
图7 行文本数据库样本
3 结语
大连民族学院DNU-Ⅰ数据库是具有自主知识产权的,唯一一个记录了书写者民族信息的脱机手写体汉字识别数据库。该数据库包含单字数据库、行文本数据库和段文本数据库3个子数据库,每个数据库有60个样本,涵盖了满族、回族、维吾尔族、白族、土家族、壮族、蒙古族、彝族、苗族、哈尼族和朝鲜族等少数民族,少数民族书写者共36人次,占总书写人数的60%。该数据库为研究不同民族的汉字书写特征及影响识别率的相关因素提供了研究的基础,应用领域主要集中在少数民族汉字书写特征分析、中文文档的行切分、汉字的切分识别、中文文本的无切分识别、标点识别、笔迹鉴别和签名验证等方面。本文还分析了字符图像预处理的相关技术,为少数民族文字数据库的构建提供必要的技术支撑。目前该数据库已完成了Ⅰ期数据库的构建,但是涵盖的汉字范围有待进一步扩充,目标是尽量完全覆盖一级汉字,并涵盖少量二级汉字。同时,还需扩大书写者的范围,特备是针对少数民族书写者,目标是完全包含56个民族,并且加强少数民族书写者的比重。
致 谢
感谢大连民族学院信息与通信工程学院通信094班、电子072班和机电信息工程学院自动化096班的同学为本数据库建立提供手写样本。感谢信息与通信工程学院电子072班王纯、王野和王路平同学所做的图像处理工作。
[1]赵继印,郑蕊蕊,吴宝春,等.脱机手写体汉字识别综述[J].电子学报,2010,38(2):405 -415.
[2]http://www.is.aist.go.jp/etlcdb/[OL].2008-11-14.
[3]郭军,蔺志青,张洪刚.一个新的脱机手写汉字数据库模型及其应用[J].电子学报,2000,28(5):115–116.
[4]SU Tonghua,ZHANG Tianwen,GUAN Dejun.HIT -MW Dataset for Offline Chinese Handwritten Text Recognition[C].Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition ,IWFHR,2006.
[5] JIN Lianwen,GAO Yan,LIU Guang,et al.SCUT -COUCH2009-a comprehensive online unconstrained Chinese handwriting database and benchmark evaluation[J].International Journal of Document Analysis and Recognition,2011,14(1):53-64.
[6]Otsu,N.A Threshold Selection Method from Gray -Level Histograms.IEEE Transactions on Systems,Man,and Cybernetics,1979,9(1):62 -66.
[7]于明,张彦云,薛翠红,等.笔迹图像中的单个汉字字符分割[J].计算机工程与应用,2010,46(9):180 -182.
DNU-Ⅰ Multi-national Offline Chinese Handwritten Database of Dalian Nationalities University
ZHENG Rui-rui,ZHAO Ji-yin,LI Min,YU Wei-min,WU Bao-chun
(College of Information & Communication Engineering,
Dalian Nationalities University,Dalian Liaoning,116605,China)
An offline Chinese handwritten characters and text database,DNU -Ⅰmulti-national offline Chinese handwritten database of Dalian Nationalities University,has been presented to record the writers’national information.Dalian Nationalities University has the copyright of the DNU - Ⅰdatabase.The DNU - Ⅰdatabase consists of 3 subsets,the single character dataset,the single line dataset and the paragraph dataset.Each sample of the DNU - Ⅰdatabase recorded the writer’s information,such as his or her name,nationality,gender and education.The proportion of writers from minority nationalities is 60%.The DNU-Ⅰdatabase can be used to conduct written features of minority nationalities,Chinese text line segmentation,Chinese characters segmentation,segmentation-free recognition,writer identification,signature verification and provide benchmark for algorithms comparison.Meanwhile,common construction procedures of character recognition database and the binarization,normalization,and line segmentation methods of character image pre-processing,which can provide technique support for minority nationalities’written languages,has been introuduceed.
Offline handwritten Chinese Recognition;database;minority nationality;image processing
TP391.1
A
1009-315X(2011)05-0502-05
2011-4-27;最后
2011-06-27
国家科技支撑计划项目(2009BAH41B05);国家民委科研项目(10DL03);辽宁省教育厅项目(L2010094);中央高校基本科研业务费专项资金资助项目(DC10010103);大连民族学院人才引进科研启动基金资助项目(20116203)。
郑蕊蕊(1982-),女,河南开封人,讲师,博士,主要从事智能图像处理与模式识别研究。
(责任编辑 刘敏)