甲骨文计算机辅助缀合技术研究
2010-10-27王爱民葛彦强刘国英葛文英周宏宇王丁磊
王爱民 葛彦强 刘国英 葛文英 周宏宇 王丁磊
1 安阳师范学院计算机与信息工程学院 455002
2 数字甲骨学研究所 455002
甲骨文计算机辅助缀合技术研究
王爱民1、2葛彦强1刘国英1、2葛文英1周宏宇1王丁磊1
1 安阳师范学院计算机与信息工程学院 455002
2 数字甲骨学研究所 455002
计算机辅助甲骨文碎片缀合,是整理甲骨的一种先进技术。研究甲骨片图像的轮廓信息的提取与轮廓跟踪算法,建立甲骨片数据库,研制了基于边界匹配的甲骨文缀合辅助系统,选定待缀合的甲骨碎片后,该系统可以自动生成疑是目标甲骨碎片的动态数据库,甲骨文专家只需要基于“备选甲骨碎片数据库” 通过人机交互来实现甲骨文缀合。
甲骨文;缀合;计算机;边界匹配;算法
文献标示码:A
inscriptions on bones or tortoise shells;rejoining;computer;contour matching
1、引言
甲骨文是我国古代占卜用的龟甲和兽骨上的文字,是我国迄今发现的最早的一种成熟文字系统,在我国文字发展史上占有重要地位。特别是,甲骨文里记录了不少关于商(殷)朝政治、经济、文化、习俗等许多方面的内容,是研究上古历史,尤其是商代历史不可替代的第一手材料,它们的出现,解决了不少历史之谜。据最近的统计,甲骨出土的数量已多达十五万片,今后的新发现还不可预料。
由于甲骨质脆,又经历了近三千年的岁月,所以在出土时多已裂成碎片。只有尽可能地将这些碎片缀合在一起,才能更好地了解卜辞的文例、位置和语法规律,更全面地研究卜辞的内容。在甲骨文的研究工作中,缀合破碎的甲骨片是一项重要的准备步骤。然而,传统的甲骨片缀合过程工作量很大,如果全靠人力来整理将是十分困难的。能否设计出一种新的方法,使甲骨学家从这一繁重的工作中解放出来?这是学术界共同关注的问题。随着计算机技术的发展,利用计算机技术辅助甲骨文缀合已经成为甲骨文研究、考释和应用的一个新的课题。1973年,美国加州大学周鸿翔教授利用电脑技术对甲骨片缀合进行了尝试,可以作到完整的或大致完整的骨版的缀合;1974年,国内也有人从事这方面的研究,可以将一骨版的1/4以上的碎片进行缀合。当然,这些研究在理论上、技术上、方法上都有待进一步改进,与甲骨文研究的需要相比都还存在很大差距,有待于通过大量的研究实践来发展和完善。目前,拟定的缀合条件包括时代、字迹、骨版、碎片、卜辞、边缘六项,除了“时代”一项以外,都是用图形显示的,因此只要在电子计算机上利用一台光读器的设备,就可以直接输入图像,随着我国电子技术的迅速发展和普及,不断提高卜甲缀合的自动化水平,将是完全可能的事。
2001年8月起,我们成立了甲骨文计算机辅助缀合课题组,开始了基于“碎片、边缘、骨版、卜辞、字迹”的甲骨文计算机辅助缀合研究,在理论和技术上都取得了重要的阶段性成果。
2、研究现状
理论上讲,对于给定待缀合甲骨碎片,只要存在目标碎片,我们总是可以找到的,也就是说甲骨文的缀合问题一定有解。但是,目前发掘甲骨的总数量约在十五万片左右,要想从十五万个甲骨片中找到待缀合的甲骨碎片,靠人工缀合的工作难度是可想而知的。特别是,基于“骨版、碎片、边缘”的人工缀合通常需要实物作支撑。找到满足“骨版、碎片、边缘”缀合条件后的甲骨文碎片(称为疑是目标碎片),再通过“时代、字迹、卜辞”三个要素进行终级缀合。
据统计,十五万个甲骨片收藏分布情况是这样的:十多万片广布于大陆四十个城市的九十多个单位,主要集中在中国科学院、国家博物馆、南京博物馆等地。台湾有二万五千多片。国外的二万六千多片,其分布情况大致如下:日本有12443片,主要藏于东京大学考古教研室,东京大学教养学部博物馆,京都大学人文科学研究所,东京国立上野博物馆,东洋文库,书道博物馆等。加拿大有7802片,主要藏于皇家安大略博物馆。英国有3355片,主要藏于伦敦大英博物馆,苏格兰博物院,剑桥大学图书馆,牛津大学东方艺术博物馆等。美国有1882片,主要藏于普林斯顿大学,哥伦比亚大学,哈佛大学,都市艺术博物馆,历史与技术博物馆,自然历史博物馆,国会图书馆等。德国有715片,主要藏于柏林民俗博物馆。苏联有199片,主要藏于彼得格勒博物馆,爱尔米塔什博物馆。瑞典有100片,主要藏于斯德哥尔摩远东博物馆。瑞士有99片,主要藏于巴费尔人种博物馆。法国有64片,主要藏于巴黎大学,柴鲁斯基博物馆,奎木尔博物馆。比利时有7片,藏于皇家艺术博物馆。韩国有6片,藏于汉城大学。
就甲骨片的收藏分布情况来看,直接利用甲骨片实物辅助缀合目前是不现实的。据报道,也有人通过查阅大量的甲骨文拓片和有关的解释资料,综合考虑“时代、字迹、骨版、碎片、卜辞、边缘”六项条件实现了部分甲骨文碎片的缀合。显然这种缀合成功的概率很小。计算机技术的发展,为甲骨文缀合、甲骨文研究、考释和应用开辟了的一个全新的研究领域。遗憾的是,甲骨文计算机辅助缀合的进展还不能满足人们的需要。只是浅层次的直接辅助,缺少系统研究,特别是用人工录制标本信息工作量大,而且不甚准确。我们从甲骨文拓片入手,在基于“边界匹配”的甲骨文缀合方向,进行了长期的研究与实践工作,在理论和技术两个方面都取得了重要的研究成果,受到了有关甲骨文专家好评。
3、设计思路
从目前出土的甲骨来看,除了龟甲和牛骨外,也发现用其他动物骨头来刻辞的,如牛的肋骨,或鹿、羊、猪的肩胛骨,甚至人的头盖骨,但数量极少。我们知道,对于给定的待缀合甲骨片来说,很容易判断出它是龟甲与否,下面的问题应该是,选择在龟甲拓片中找目标碎片还是在牛骨(含其他)拓片中找目标碎片,这样可以少做无用劳动,提高缀合速度。基于以上分析,我们的研究是从以下几个方面开展的。
1、建设通用甲骨片数据库。在《甲骨文合集》、《小屯南地甲骨》等(均为海内外具有国家级受誉的出版物)7 种甲骨文著作中需要缀合的碎片的基础上,建设甲骨片数据库(数据库Ⅰ、数据库Ⅱ)。其中数据库Ⅰ中记录卜甲(龟甲)碎片的全部信息,数据库Ⅱ中记录卜骨(牛骨和其他骨片)碎片的全部信息。该数据库的设计目标是,既支持甲骨文计算机辅助缀合也支持甲骨文人工缀合、甲骨文研究、考释和其他应用。
2、对甲骨片图像预处理,获取甲骨片图像的轮廓信息。这项工作主要包括去噪、分割、分割结果后再处理和轮廓跟踪等几个主要工作程序。去噪主要用于去除甲骨片图像成像过程中的成像噪声,为后续的图像分割奠定基础;图像分割是检测出甲骨片图像区域,缀合成功与否的基础;形态学处理的主要目的是为了形成甲骨片的闭合图像区域,用以完整地表示甲骨片的轮廓信息;轮廓跟踪的目的是获取甲骨片的轮廓信息。为了后续轮廓匹配的需要,待缀合甲骨片的轮廓跟踪和建立甲骨片数据库时采用的跟踪方向相反。
3、研究甲骨片边界片段的提取策略。甲骨文计算机辅助缀合过程中,采用的是从数据库中逐段搜索能够匹配的轮廓片段的方式。因此,如何从待缀合轮廓中选择合适边界片段、以及如何从数据库候选轮廓中选择候选边界片段就成为整个系统能否运行的关键。最简单的方式是设定一个固定的轮廓片段长度Comp_len,从待缀合的轮廓和数据库中某一候选轮廓中直接截取Comp_len长的轮廓片段进行匹配。然而,这种截取方式会带来较大的问题:(1)Comp_len太小,难以表达轮廓片段的特征,在匹配过程中会从数据库中找出非常多的可匹配甲骨片;(2)Comp_len太大,选取的轮廓片段有可能会跨越多个可匹配甲骨片轮廓区域。因此,如何选择合适的甲骨片轮廓片段的提取策略对整个系统的运行效果有着非常重要的作用。一种改进的策略便是从较小的Comp_len开始进行匹配,并设定一定的步长,随着匹配的成功再逐渐地增加提取轮廓的长度。
4、甲骨片数据库的建设
甲骨片数据库Ⅰ和甲骨片数据库Ⅱ的结构是相同的,设计的几个主要数表结构如图1、2、3、4所示。
图1 甲骨片图像表结构
图2 甲骨片轮廓表结构
图3 甲骨片链码表结构
图4 甲骨片信息表结构
目前已经将《甲骨文合集》、《小屯南地甲骨》等7套书中的待缀合的甲骨片进行了处理(所有甲骨碎片的选取,都经过甲骨文研究人员重新临摹并加校勘、释文),甲骨片数据库Ⅰ(卜甲)已经收录5829个待缀合的碎片、甲骨片数据库Ⅱ(卜骨)收录2622个待缀合的碎片。
该数据库,已经在有关甲骨文专家的“文字考释”、“甲骨文编辑、编码”等研究中得到应用,很受好评。
5、基于边界的甲骨文计算机辅助缀合系统整体框架
基于边界信息的甲骨片计算机辅助缀合系统的整体框架图如图5所示。待缀合甲骨片经过图像的预处理之后可以获取甲骨片的轮廓,整个系统通过逐段轮廓比较的方式从甲骨片数据库中寻找能够匹配成功的候选甲骨片。在甲骨片数据库中存储了能够搜集到的所有甲骨片的图像编码以及甲骨片的轮廓信息。
为了提高计算速度,在缀合工程中,我们建立了与甲骨片数据库结构相同的动态备选甲骨碎片数据库。考虑文章篇幅,有关的甲骨片图像的轮廓信息提取技术、边界片段特征信息的提取计算法、边界信息匹配算法等内容我们将在另文介绍。
图5 基于边界的甲骨片缀合系统框架
6、甲骨文人机交互缀合的实现
实验证明,当甲骨片数据库中存在目标甲骨碎片时,基于边界的甲骨文计算机辅助缀合系统可以自动将其找到。事实上,来自不同甲骨上的碎片仅就其边界而言,可能是相同的。也就是说,对于给定的待缀合甲骨碎片,一般情况下,在基础数据库中会存在多个疑是目标甲骨碎片,系统会自动生成动态备选甲骨碎片数据库。对于疑是目标甲骨碎片的判断,需要根据“时代、字迹、骨版、卜辞”通过人机交互来实现。
显示人机交互过程的关键算法如下:
人机交互中数据处理的有关算法将在另文介绍,交互缀合的工作界面如图6所示。由于完成人机交互缀合,需要甲骨文“时代、字迹、骨版、卜辞”的知识作支撑,通常情况下,这项工作应该由甲骨文专家完成。
7、总结及展望
本文建设甲骨片数据库,既支持甲骨文计算机辅助缀合也支持甲骨文人工缀合、甲骨文研究、考释和其他应用。已经被有关甲骨文专家所用,并且很受欢迎。
对待缀合的甲骨文碎片,基于甲骨片数据库,应用《甲骨文计算机辅助缀合系统》,可以自动生成动态备选甲骨碎片数据库(能为甲骨文缀合人员节省大量的时间),调用甲骨文人机交互缀合系统,以甲骨文“时代、字迹、骨版、卜辞”的知识作支撑,可以实现甲骨文的缀合。
目前,甲骨片数据库的信息量还不到需求量的1/15,还有很多工作要做,特别是信息处理速度太慢,有关算法需要进一步完善。今后我们计划把人工智能技术应用到人机交互缀合系统,不断提高自动化程度。
图6 甲骨文交互缀合系统界面
[1] Freeman H. On the encoding of arbitary geometric configurations. IRE Trans, 1961, 10:260-268.
[2] Freeman H. Shape description via the use of critical potions. Pattern Recognition, 1978, 10:159-166.
[3] Freeman H. Computer processing of line drawing images. ACM Computing Surveys, 6:57-97.
[4] Zhan C T, Roskies R Z, Fourier descriptors for plane closed curves. IEEE Trans.Computer, 1972, 21(3): 269-281.
[5] Persoon E, Fu K S. Shape descrimination using Fourier descriptors. IEEE Trans. System,Man, Cybernetics, 1977, 7(3): 170-179.
[6] Teague M R. Image analysis via the general theory of moments. J. Opt Soc Amer., 1980,70:920-930.
[7] 冈萨雷斯(著), 阮秋琦(译).数字图像处理(Matlab版).北京:电子工业出版社.2006.4.
[8] 刘宏申, 秦锋. 确定轮廓形状匹配中形状描述函数的方法. 华中科技大学学报(自然科学版).2005.4, 33(4): 13-16.
[9] C Papaodysseus, etal. Contour - Shape Based Reconstruction of Fragment, 1600 B. C.Wall Paintings [ J ]. IEEE Transactions On Signal Processing, June 2002, 50 (6) : 1277 –1288.
[10] 贾海燕, 朱良家等. 一种碎纸自动拼接中的形状匹配方法.计算机仿真.2006.月, 23(11): 180-183.
[11] 商朝甲骨. http://www.xtmm.cn/2009/0924/yMMDAwMDAxMzkyMg_4.html
The System Designation for the Computer Aided Rejoining of the Bones/Tortoise Shells with Inscriptions Based on Contour Matching
Wang Aiming Ge Yanqiang Liu Guoying Ge Wenying Zhou Hongyu Wang Dinglei
1 School of Computer & Information Engineering, Anyang Normal University, Anyang, Henan, 455002
2 Institute of Digital Inscriptions on Bones/Tortoise Shells, Anyang, 455002
The computer aided rejoining is an advanced technology for the arrangement of the bones or tortoise shells with inscriptions. In this paper, we have studied the algorithms for contour extracting and tracking from these shell images and algorithms for extracting the feature vectors of the contour segments. We established a database for the oracle shell images, and developed a computer aided system based on the contour matching technology. After a being rejoined shell is selected, this system can automatically find a dynamic database for the possible target shells.Based on which, the experts can carry out the shell rejoining only by hand-computer interaction.
TP311. 1
王爱民(1957-)男,教授,博士,研究方向:数据挖掘与智能技术、甲骨文信息处理。