基于数学形态学的甲骨拓片字形特征提取方法
2013-04-14酆格斐顾绍通杨亦鸣
酆格斐,顾绍通,杨亦鸣
(1.江苏师范大学语言研究所,江苏徐州221009;2.语言科学与神经认知工程江苏省重点实验室,江苏徐州221009;3.江苏师范大学语言科学学院,江苏徐州221009)
1 引言
甲骨文作为我国迄今发现最早的一种成熟文字系统,具有极重要的学术价值和文化遗产保护价值[1-3],可为语言文字学等相关学科的发展提供新材料、研究方法和课题。甲骨文由于契刻在龟甲与兽骨之上,距今已有三千多年,且文字形状奇特,难于卒读。自发现之日起,学者们就开始对其进行鉴定、收集和研究,甲骨拓片的文字考释现已成为甲骨学研究最重要的研究内容之一。
甲骨文与现代汉语文字在字形、语言和语意等方面都有较大差别[4],文字考释工作基本采用人工的方法,大多利用语言文字学的理论与方法,并结合历史、考古、民族学等研究方法进行全方位考察。孙诒让采用与金文比较的方法释读《铁云藏龟》中的甲骨单字,并结合不同用例,初步尝试了对甲骨卜辞内容进行考察[5];罗振玉采用字形比较与偏旁分析的方法,与所释字在辞句中的位置与作用,将可读的字识别出来[6];郭沫若将唯物史观和近代科学方法引入甲骨文字考释领域,将甲骨文中的十二支与古巴比伦人划分黄道为十二宫相比照[7];唐兰在总结甲骨文字考释的理论与方法时,特别注重字形研究,提出辨明古文字形体的对照法,认为文字的形体研究应该成为独立的科学[8-9];于省吾考释甲骨文严格从字形的审释出发,认为字形是进行研究的唯一基础,并通过分析点画偏旁之法,辅以声韵通假之方,即兼顾形音义三要素的原则进行甲骨文字考释[10-11];裘锡圭根据字形对甲骨文中各种农作物和商代宫刑进行了考释[12-13],他还特别重视甲骨文书写规律对文字考释的影响,对合文重复偏旁的省略现象进行了研究[14],并对甲骨文的析书、倒写、侧写及特殊书写习惯进行了考察[15];于省吾以甲骨文字原形为对象,按字形总表的顺序编篆甲骨文部首检索系统[16]。
基于字形审释的研究理论和方法在甲骨文字考释中起着很重要的作用,然而,甲骨文字数量多、字符繁复并具图画结构,且因条件限制一些甲骨拓片模糊不清,人工的考审工作现已耗费甲骨学者们大量的经历和心血,仅为部分经验丰富的甲骨学者所掌握,难以为计算机所识别而进一步进行辅助考释研究。因此,周新伦等通过对甲骨文字形结构特征的分析,提出了一种基于拓扑特征的计算机识别方法[17];李峰等将甲骨文当作无向图来处理,提取它的图特征,提出了一种基于图论方法识别甲骨文的理论和技术[18]。上述方法仅提取了甲骨文字的拓扑特征和笔画特征,不能涵盖甲骨拓片字符的形态和结构特征,难以推广并应用计算机进行甲骨拓片缀合、校重、辨伪、复原和识别。
本文借鉴上述甲骨拓片字形对比分析方法,以计算机的角度去理解甲骨拓片的字形特征,并采用数学形态学方法对甲骨拓片图像进行处理,提取甲骨拓片的字形特征。基于数学形态学的甲骨拓片字形特征提取过程如图1所示,主要包括预处理、数学形态学处理和特征提取等部分。
1)预处理。包括经输入设备(扫描仪)采集甲骨拓片点阵位图,对甲骨拓片图像进行二值化、去噪点等处理;
2)数学形态学处理。对甲骨拓片进行数学形态学处理,获得去外框图、凸包图、特殊四边形图、骨架图、连通图和笔宽权值图。
3)特征提取。计算甲骨拓片图像的字形特征,即提取能充分反映甲骨拓片字形的笔画线条风格,同时又相对稳定的特征。
图1 基于数学形态学的甲骨拓片字形特征提取过程
2 基于数学形态学的字形特征提取
2.1 预处理
甲骨拓片的预处理包括:扫描甲骨拓片图片获取点阵位图、二值化处理点阵位图、对二值图像进行去噪点处理。
利用扫描仪以固定分辨率将《甲骨文合集》(中华书局,1979~1983年)559(正面)的甲骨拓片扫描成灰度图像,如图2(a)所示。该拓片上有多个甲骨文字,因此通过字符切割可得到单个的甲骨字体图像,该拓片上的“仆”字的点阵位图如图2(b)所示。进一步利用迭代法将甲骨拓片图像二值化(其中:以0表示黑像素即背景像素,1表示白像素即前景甲骨笔画像素)处理,如图2(c)所示。因甲骨拓片在地下深埋上千年,由于受到腐蚀、发掘损坏以及拓片质地本身等原因,导致甲骨拓片有许多噪声点[19],且噪声点呈离散形态分布且区域面积较小,因此采用去掉面积较小的连通域的方法[20],对二值图像进行噪声消除,最终得到去除噪点后的甲骨文字二值图像,如图2(d)所示。
2.2 数学形态学处理
字形特征的选取是影响甲骨拓片断代的重要因素,本文在提取甲骨拓片图像的字形特征时,充分考虑甲骨拓片字形的笔画线条特征[21-22]:(1)字形分布各异:甲骨文字字形外部轮廓往往参差不齐具有图画结构,且字体大小并不统一;(2)笔画线条骨架:构成甲骨文的线条多为直线,线条细瘦挺直且两端尖锐,转折处多是方笔棱角分明;(3)笔画区域连通:甲骨文字形的笔画一般都是单连通区域,仅有极个别笔段会出现断裂;(4)笔画宽度均衡:甲骨拓片字形多由手工钻凿而成,故笔画宽度往往一致。
图2 甲骨拓片图像预处理
因此,需要依据甲骨拓片的字形演变、书体作风和钻凿形态等,将人工鉴定所用到的视觉特征进行转化,对甲骨拓片进行图像处理并转化抽取为计算机语言描述的字形特征量。数学形态学(Mathematical Morphology)作为一门建立在严格数学理论基础上的学科[23-24],其基础语言是集合论,可从图像中提取表达或描绘区域形状有用的图像分量,广泛应用于图像分割、噪声滤除、图像细化、边缘提取、骨架抽取和形状分析等处理,对图像处理的理论和技术产生了重大影响[25]。因此,本文利用数学形态学图像处理方法可以提取甲骨拓片的视觉特征。
对甲骨拓片进行形态学图像处理提取字形特征的主要过程为:首先,对单个甲骨拓片字体去噪声点后二值黑白图像进行图像处理,获取外接矩形并得到去外框图;其次,根据甲骨字形分布各异的特征,进行凸包图和特殊四边形图处理,针对笔划细瘦直线线条特征提取骨架图,根据笔划区域连通特征提取连通图,以及针对笔划宽度均衡特征提取笔宽权值图,分别进行甲骨拓片图像的数学形态学处理过程,如图3所示。
图3 甲骨拓片图像的数学形态学处理过程
2.3 字形特征提取
经过去外框图处理得到的单个甲骨字体的二值图像,如图4(a)所示。设以f (x,y)表示单个甲骨字体的外接矩形,因是二值图像,故其取值非1即 0,其中0是黑色表示非字体背景像素,而1是白色表示字体笔画前景像素。设该外接矩形图像的大小为:M×N,其中M为图像的水平像素数,N为垂直像素数。从单个甲骨字体的去外接矩形,可以获得如下特征:
1)外接矩形的宽高比例特征:可表现甲骨字体的扁平程度特征,定义为式(1)。
其中:M作为图像的水平像素数,可表示甲骨拓片字体外接矩形的宽,N作为图像的垂直像素数,为甲骨拓片字体外接矩形的高。
2)字体与外接矩形面积比:
s1表示甲骨拓片字体的实像素总和,而s2=M×N表示甲骨拓片外接矩形像素总和。
3)水平、垂直方向相对重心位置:
其中,a3,a4标识为甲骨拓片字体的水平、垂直相对重心,¯x,¯y分别是图像的水平重心位置和垂直中心位置,如图4(b)所示。且有:
以单个甲骨拓片字体图像作为有限点集,找到字体点集中最右顶点,依照逆时针方向枚举出包含该点集中所有点的最小面积的凸多边形所有的顶点,作为甲骨拓片字体轮廓的凸包图,如图4(c)所示。设凸包按逆时针的n个顶点A1(x1,y1),A2(x2,y2),…,An(xn,yn),根据甲骨字体凸包图可以抽取特征:
4)字体与凸包面积比:
甲骨拓片字体图像具有丰富的边缘信息,除了上述外接矩形和凸包外,还有特殊四边形。设该特殊四边形中特殊的四个顶点分别是:最高点Au(xu,yu)、最左点Al(xl,yl)、最低点Ad(xd,yd)和最右点Ar(xr,yr)。这四个顶点组成一个不规则的四边形,如图4(d)所示,提取与之相关的特征有:
5)特殊四边形对角线上半部分所占比例:
6)特殊四边形对角线左半部分所占比例:
7)特殊四边形对角线夹角的余弦值cosθ:
上述a5、a6、a7三个特征值一旦确定,甲骨拓片字体的特殊四边形的形状就确定了,且这三个特征值都具有大小不变性,所以这三个值能综合体现甲骨拓片字体外部形态。
另外,对单个甲骨拓片字体图形进行细化分段后,获取甲骨拓片字体的骨架图,如图4(e)所示,经过统计可以分别抽取:
8)笔画段数a9:经图像处理得到甲骨拓片字体的骨架图后,可以删除其所有的交叉点获取一系列分离的线段,统计分离线段的个数用以体现甲骨字体笔画的连笔特点,如图4(f)所示。
9)最长的笔画段长与第二长的笔画段长比a10:对各个分离线段的长宽进行从大到小排序,将最长的笔画段长于第二长的进行对比反映甲骨字体笔画搭配比例的特点。
从单个甲骨拓片字体的连通图,如图4(g)所示,可以抽取:
10)字体独立连通块数a11:根据连通特性,直接统计一个甲骨拓片字体由多少个独立部分构成,也应用于体现甲骨拓片字体的连笔特性。
利用形态学的击中和击不中变换将甲骨拓片图像做细化处理,图4(h)是细化后的笔宽权值图,将其表示成p (x ,y),可以抽取单个甲骨拓片字体的笔画宽度特征:
11)笔画宽度特征:
3 实验和分析
图4 甲骨拓片的形态学处理和字形特征提取
为了验证方法的有效性,在PC机上用VC++和OpenCV编程实现了上述数学形态学处理过程及字形特征值的计算,系统界面如图5所示。实验数据来自《甲骨文合集》(中华书局,1979~1983年),其收录甲骨41 956片。在实验中,对甲骨拓片进行扫描输入,进行图像分割获得单个甲骨拓片文字图像,分别对各个甲骨文字进行预处理和数学形态学处理,分别提取各个甲骨拓片的字形特征向量。
图5 基于数学形态学的甲骨拓片字形特征提取系统
以第559号(正面)甲骨拓片上的“仆”字为样本,如图2(b)所示。获取该样本的字形特征,并以《甲骨文合集》中的甲骨拓片作为检材库,分别进行数学形态学处理,并获取各个甲骨拓片的字形特征取值。因检材库中甲骨拓片众多,故本文仅选取部分检材标本(图6)进行甲骨拓片字形特征的匹配验证实验案例分析。
利用基于数学形态学的甲骨拓片字形特征提取系统,处理并计算样本及各检材标本的12种甲骨拓片字形特征取值,如表1所示。针对检材库分别计算12种字形特征标准的阈值,利用线性函数转换将各字形特征值进行归一化,并计算归一化后各检材标本与样本字形特征值之间的欧式距离d和余弦相似度Sim,从而进行甲骨拓片字形的相似度匹配,并将具有最小欧式距离和最大余弦相似度的甲骨文字作为最相近的检材结果。
图6 甲骨拓片图像检材标本
表1 甲骨拓片字形特征匹配验证实验结果
综合比较分析实验数值结果,检材b的欧式距离取值为0.817 878,余弦相似度为0.930 144,具有最小的欧式距离和最大的余弦相似度取值,为本文所选样本的最相近字符,如图6(b)所示。从直观上来看对比样本和检材b这两个甲骨文字,其笔画形态和结构相差不大,且这两个甲骨文字的字形特征值具有较高的整体相似度。采用本文提出的字形特征作为甲骨文字识别标准,可以较好地将具有相似字形特征的甲骨文字检索出来,具有很高的识别率和代表性,说明本文方法提取出的字形特征能较好地反映甲骨文字的笔画形态和结构。
4 结论
甲骨文实物发现,催生了甲骨学的研究与发展,可为语言文字学等相关学科的发展提供新材料、研究方法和课题,在中国当代学术史上具有划时代的意义。利用计算机辅助进行甲骨拓片复原、识别和断代等工作,具有重要的研究意义和应用价值。本文分析了甲骨拓片字形特征提取是利用计算机辅助甲骨学研究的关键,提出了一种基于数学形态学的甲骨拓片字形特征提取方法。为了尽可能准确地把甲骨拓片从背景噪声中分离出来,首先对原始甲骨拓片图形进行预处理,然后再应用数学形态学方法对甲骨拓片进行图像处理和分析,提取出12项指标用于表现甲骨拓片字形特征,并构造了一个基于数学形态学方法的甲骨拓片字形特征提取系统。通过对《甲骨文合集》实验数据进行基于字形特征的甲骨拓片图像匹配验证,实验结果表明,数学形态学的图像处理方法能有效地提取出较好的反映甲骨文字的笔画形态和结构的字形特征。
[1] 顾绍通,酆格斐,马小虎,等.基于泊松分布和分形几何的甲骨拓片字形复原[J].中国科学:信息科学,2011,41(1):23-32.
[2] 顾绍通.甲骨拓片字形图像复原方法[J].中文信息学报,2010,24(2):116-121.
[3] 马小虎,杨亦鸣,黄文帆,等.甲骨文轮廓字形生成技术研究与通用甲骨文字库的建设[J].语言文字应用,2004,3:105-110.
[4] 王宇信,魏建震.甲骨学导论[M].中国社会科学出版社,2010.
[5] 孙诒让.契文举例[M].齐鲁书社,1993.
[6] 罗振玉.殷墟书契考释[M]增订本,台北艺文印书馆影印本,1968.
[7] 郭沫若.甲骨文字研究[M].科学出版社,1962.
[8] 唐兰.殷墟文字记[M].中华书局,1981.
[9] 唐兰.陕西省岐山县董家村新出西周重要铜器铭辞的译文和注释[J].文物,1976,5.
[10] 于省吾.双剑誃殷契骈枝、双剑誃殷契骈枝续编、双剑誃殷契骈枝三编(繁体竖排版)[M].中华书局,2009.
[11] 于省吾.甲骨文字释林[M].中华书局,1979.
[12] 裘锡圭.甲骨文中所见的商代农业[M].《农史研究》8辑,农业出版社,1989.
[13] 裘锡圭.甲骨文中所见的商代五刑——并释(兀刂)、剢二字[J].考古,1961,2:107-110.
[14] 裘锡圭.甲骨文中重文和合文重复偏旁的省略[M],古文字论集.北京:中华书局,1992:141.
[15] 裘锡圭.甲骨文字特殊书写习惯对甲骨文考释的影响举例[C]//安阳殷墟笔会论文选,1984.
[16] 于省吾.甲骨文字诂林[M].中华书局,1996.
[17] 周新伦,李峰,华星城,等.甲骨文计算机识别方法研究[J].复旦学报(自然科学版),1996,35(5):481-486.
[18] 李峰,周新伦.甲骨文自动识别的图论方法[J].电子科学学刊,1996,18(增刊):41-47.
[19] 顾绍通,马小虎,杨亦鸣.基于字形拓扑结构的甲骨文输入编码研究[J].中文信息学报,2008,22(4):123-128.
[20] Maragos P.Differential morphology and image processing[J].IEEE Transactions Image Processing,1996,5(6):922-937.
[21] 马小虎,黄文帆,顾绍通,等.甲骨文点阵字形转换为甲骨文轮廓字形的方法[J].语言科学,2004,3(3):3-11.
[22] 聂艳召,刘永革.甲骨文自由笔画输入法[J].中文信息学报,2010,21(6):100-107.
[23] Maria C M.Fuzzy mathematical morphology:concepts and applications[J].Vistas in Astronomy,1996,40(4):469-477.
[24] Serra J.Mathematical morphology and its applications to image and signal processing[M].Boston:Kluwer Academic Publishers,1996:234-251.
[25] 占德胜,芮白林.基于数学形态学与图论的数显字符识别[J].安徽工业大学学报,2008,25(2):181-184.