APP下载

满文单词合成系统的设计

2016-11-03张晶李婷许爽王帆

科技视界 2016年18期
关键词:合成

张晶 李婷 许爽 王帆

【摘 要】本文依托满文的特点,根据满文的音节特点和满文单词的拼写规则建立满文字母样本库。经过对样本库中满文字母的黑色像素遍历,绘出像素分布直方图,定位字母基线,再通过上下基线拼接达到合成满文单词图像的目的,实现单词图像合成,利用Matlab的GUI实现系统的可视化界面。

【关键词】满文单词;合成;字母基线;图像拼接

【Abstract】Relying on the characteristics of the Manchu words, the sample database of Manchu words is established based on its syllable characteristics and spelling rules. After traversing the black pixels of the Manchu words in the sample library, a pixel distribution histogram is drawn. After positioning the letter baseline, we stitch the upper and lower baseline to realize the word image synthesis, in order to achieve the purpose of synthesis Manchu word image. At last, Matlab GUI is used to implement the visualization interface.

【Key words】Manchu words; Synthesis; Letter baseline; Image Stitching

0 引言

作为统治了中国近三百年之久的清王朝,孕育了丰富多彩的满族文化。满族是一个拥有独特文化的民族,不仅有自己的历史文化、风俗习惯,还有自己的语言和文字,现存的用满文写成的浩如烟海的典籍和档案文献,为我们留下了珍贵的文化遗产。随着历史进程,满文逐渐成为了一种历史文字。时至今日,精通满文的人已为数不多,满族语言文字已濒临失传,这就使得各个领域对满文历史资料和满文信息化的的研究显得十分困难。内蒙古大学的魏宏喜,高光来[1]等人在蒙古文的识别和合成方法上,提出了Word Spotting的改进技术,而现有针对满文文字的合成研究却是非常少的。实现满文文字字母样本库的建立和满文单词的合成,不仅有助于对满文的学习和研究,也对我国其他少数民族语言文字处理的发展有借鉴作用。

1 满文文字特点

满文[2]是属于阿尔泰语系的通古斯语族的一种古文字,在词的构造和拼写上与英语、汉语等语种有很大的差异。

1)满文的基本字母由6个元音和36个辅音字母构成,其中一个字母有最多8种的写法,且不同元音字母和辅音字母搭配在一起或字母在单词中的位置不同都可能使其在书写上具有不同的形式。

2)在书写上满文采用从上到下的书写顺序,每个满文单词都是由一到多个满文字母上下缀接而成。

3)与其他文字不同,满文是由满文字母通过主基线拼接而成,且字母之间无缝连接不存在空隙。

1.1 满文的音节特点

满文是一种音节型的拼音文字[3]。每一个字母都可以作为一个独立的音节构成单词,虽然我们可以将满文字母的所有音节划分为元音音节和辅音音节,但满文却不能被完全称为是一种音节型文字。实际上,满文是以音节为单位,由字头、字中和字尾上下缀接而成的。在首字头形下缀接i、o、b、k、l、m、s、k、n、ng、r等11个音素,这样形成的十一种音素字头与首字头共同构成满文的十二字头。这十二字头基本囊括了满文的所有音节,然后在对这些音节进行联缀拼接就构成了满文单词。不同元音字母和辅音字母搭配在一起书写,其书写形式也有很大差异。

1.2 满文的拼写规则

满文单词的拼写是从上到下进行的。满文单词由一到多个字母从上到下连续书写而成。由上文可知满文有其独有的音节特点,其所对应的字母形式也分为独立字形、字头形、字中形和字尾形。在满文单词中,字母出现在不同的位置会有不同的写法,每一个满文单词最多包含四种字母形式,称为独立字形、字头形、字中形和字尾形。在单词拼写时,除独立字形外,字头形、字中形和字尾形字都有固定的拼接规则,一般形式为1个字头形+ n个字中形+ 1个字尾形(n大于0)的联合体。

2 满文单词合成系统的设计

2.1 满文字母库的建立及预处理

从何荣伟[4]所编著的《满语365句》金标扫描版中摘选出满文的标准的基本字母,并且根据满文的音节特点和拼写特点将满文字母预处理之后分类处理,建立满文字母的样本库。

为了使得到的图像具有较高的质量,将满文字母图片以高分辨率保存。得到统一字体的满文单词图片,依据满文单词的拼音文字和拼写规则将满文字母整理,使用截图工具依据满文字母的音节和字头、字中、字尾图片截取以高分辨率的PNG格式保存,建立图片形式的满文字母统一的样本库,为了保证后续工作(如:遍历像素点、图像拼接等)的顺利进行,有必要对扫描图像进行有效的预处理,以减轻噪声的干扰,提高图像质量。图像的预处理步骤如图2所示。

采用“阈值法”实现图像的二值化处理。选取适当阀值,将截取的灰度图像通过二值处理得到仍然可以反映字母图像的整体和局部特征的二值化图像。

2.2 字母图像的表示

如果直接在字母图像的像素灰度值上进行图像匹配和特征提取通常是效果欠佳的。如何提取出有效的高层特征来表示字母图像,以便采用更高效的图像拼接算法,获得更好的单词合成结果也是应当关注的问题。

由于以何种方式来表示满文字母图像与所要釆用的特征选择和图像拼接策略以及合成的准确率是密切相关的,因此这两个关键问题需要整体看待。此处我们只对图像的表示方法进行归类,不同的图像表示方法有不同的图像匹配策略。本文采用基于像素的表示方法对字母图像进行表示。

该方法直接将单词图像中每个像素的亮度或者方向梯度用来描述字母图像。这种表示方法选取满文单词的基线作为特征,通过遍历像素黑点得到结果直方图,即可获得字母图像之间的匹配基线。

2.3 定位基线

每个满文单词可看成由一到多个满文字母通过基线相连构成,基线大多位于单词中部,而且完全由密集的黑像素点构成,如图3所示。根据基线由密集的黑像素点所构成的这一特点,把满文字母图像看作一个随机的二值图像点阵[5],取点阵中每列黑像素数总数为A:

对选中的其中一个满文字母样本例如音节ng的字尾形,如图5所示,进行黑色像素的遍历,遍历结果直方图如图6所示,在图6的左图中绘出在现有图像像素的基础上,样本图片的黑色像素分布情况,由图中我们观察到在位于图片大约30(单位:像素)时,黑色像素点明显增多,由此,基线粗略位置即可得到。其次,在遍历黑色像素的基础上,记录相邻两列黑像素的差值,得到的峰值和谷值即为图6的右图所示,由此,所得峰值为基线的最左侧,谷值即为基线的最右侧,至此,字母图像的基线位置得以确定,由此类推,每个满文字母的基线位置都可以被定位。

2.4 图片拼接合成实现

满文至上而下书写,同一个单词中所有字母按出现的先后顺序依据音节特点,由字头形式、字中形式和字尾形式从上至下依次拼接起来。

利用图像拼接原理[6]合成单词图像[7]的时候,如下两个条件必须同时满足:(1)相邻字母的基线必须左右边界完全对齐;(2)相邻字母按照基线位置无缝拼接,相邻字母的基线在其上下边界应完全重合且无缝隙。

以下为本设计合成满文单词图像的算法步骤。假设一个合成单词图像表示MW,它由3个字形图像组成,并定义由前个字形图像生成的中间结果表示为MWIR,则生成的算法如下:

2.5 系统GUI的设计

本文基于matlab实现将满文字母图像拼接合成满文单词图像,并设计了GUI界面。本系统可以在界面的选择字母按键面板中点击选择字头、字中或字尾形,在弹出的文件夹中选取所要合成的满文字头、字中、字尾,通过点击满文合成按键,即可得到完整的满文单词。系统具有保存合成后的满文单词、输入汉语显示对应的满文句子等功能。满文单词合成系统界面如图7所示。

3 结论

本文对满文单词合成系统关键技术进行了研究。首先,确定了构成满文单词的字形集,并根据字形出现在单词中的位置,将它们分为:字头字形、字中字形和字尾字形。然后,依据满文单词的拼写规则和书写特点,对满文字母样本进行黑色像素的遍历定位基线,以对齐字形图像基线实现拼接。本文利用matlab实现了该系统,并设计了GUI界面使系统可视化。该系统为满文信息平台及满文单词检索研究奠定了良好的基础,同时也对其他少数民族文字合成提供了参考,有助于我国少数民族语言文字处理的发展。

【参考文献】

[1]魏宏喜,高光来.蒙古文古籍图像检索技术研究[D].内蒙古大学,2012.

[2]屈六生.满文教材[M].乌鲁木齐:新疆人民出版社,1991.

[3]胡增益.新满汉大词典[M].乌鲁木齐:新疆人民出版社,1994.

[4]何荣伟.满语365句[M].沈阳:辽宁民族出版社,2009.

[5]李伟,高光来,侯宏旭,李振宏.印刷体蒙古文字识别技术中切分方法的设计与实现[J].内蒙古大学学报,2003(3):1-5.

[6]Shi J, Malik J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 8(22): 888- 905.

[7]Regier T, Carlson L. Grounding spatial language inperception: an empirical and computational investigation[J]. Journal of Experimental Psychology: General, 2001, 130(2): 273-298.

[责任编辑:杨玉洁]

猜你喜欢

合成
综合化学实验设计:RGO/MnO复合材料的合成及其电化学性能考察