APP下载

甲骨文信息化研究之路简述

2022-04-06王帅李鹏苏倩文

关键词:缀合甲骨甲骨文

王帅 李鹏 苏倩文

甲骨文是迄今为止我国发现的最早的文字系统,因其刻于龟甲和兽骨而得名。自1899年王懿荣首先识别出殷墟甲骨文始,通过持续的考古发掘,甲骨文目前存世数量约为16万片[1]。甲骨文的发现极大地推进了先秦史和古汉字研究,并直接促成现代考古学在中国的创立。时至今日,甲骨学早已是一门分支众多、影响深远的显学。习近平总书记在《致甲骨文发现和研究120周年的贺信》中指出:“殷墟甲骨文的重大发现在中华文明乃至人类文明发展史上具有划时代的意义。甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,值得倍加珍视、更好传承发展。”[2]甲骨文研究专业性强,迄今被学者识读的只有2000字左右,限制其得到进一步学术应用的障碍还有不少,计算机信息技术的引入则可能带来改变。

我国学者利用计算机研究甲骨文并不算晚。以甲骨缀合为例,早在20世纪70年代,童恩正等就尝试使用计算机技术缀合甲骨碎片。他们从安阳殷墟坑中选择了263片甲骨进行缀合实验,缀合成功率40%。[3]实验虽然是在已经缀合的样本中进行,当时计算机技术也不够成熟,但是他们的创新工作还是为计算机应用于甲骨学做了有益探索。近些年来,随着数据处理与人工智能相关技术瓶颈的突破,一批甲骨文信息化项目更是取得进展。安阳师范学院王爱民团队[4]发表多篇文章论述甲骨碎片缀合的关键技术,他们利用甲骨碎片的边界特征进行了新的甲骨缀合实验,在有比较准确的甲骨碎片边界信息时可以利用人机交互快速实现有关碎片的缀合。莫伯峰等[5]则通过对比专家学者和人工智能在甲骨缀合方面各自的优劣,提出两者可以互相配合以取得不同条件下的最优缀合成果。

此前也有学者从不同角度对甲骨文信息化不断取得的成果进行评述。2008年,门艺对当时国内外甲骨文数据库进行了综合介绍[6]。2010年,顾绍通对甲骨文数字化过程中的一些问题如甲骨图像去噪处理、甲骨文字拟合、甲骨碎片拼接、甲骨文字库建设等进行过讨论[7]。卢芯怡则对近年来计算机在甲骨文识别、编码、输入法、语义分析等方面的应用进行了简要评论[8]。刘永革等也对近年来的甲骨文输入法做了评述,并介绍了该团队新开发的可视化输入法[9]。尽管已经有学者对甲骨文信息化成果做过梳理,但计算机技术更新很快,如近年来深度学习对甲骨文信息化有很大促进,此前学者在这一领域的介绍和涉及不多。有鉴于此,在回顾研究历史的基础上结合最新成果进行综合评述仍是必要的。目前利用计算机信息化技术及人工智能深度学习对甲骨文的研究主要集中在数据库、检识、编码、输入法及甲骨文考释等方面。

一、甲骨文数据库的建立与维护

甲骨文信息化应用的前提是将甲骨文的材料、工具书、研究文献数字化,相应的工作即数据库的建设。数据库并非简单地将已有材料制作成电子资料,还应对甲骨文拓片或图片进行去噪处理并使相应材料可检索。甲骨文的数据库包括甲骨文原始资料库、甲骨文文字库、甲骨文著录库、甲骨文文献库等多种类型。

国内外已建成多个数据库,如香港中文大学开发的香港汉达古籍数据库检索系统,不仅包括甲骨文,还有金文、竹简帛书以及一些传统文献数据库。其甲骨文数据库收录《甲骨文合集释文》及《英国所藏甲骨集》等海内外7种主要大型甲骨图书,共计卜辞53834片,约100万字[10]。中国国家图书馆·中国国家数字图书馆中“古籍资源库:甲骨世界”数据库收集了“甲骨实物:元数据2964条,影像5932幅。甲骨拓片:元数据2975条,影像3177幅”[11]。此数据库还具有工具库链接功能,如《甲骨文合集》来源表及释文部分、《甲骨文字典》《金文字典》等,以便读者参考。此外,中国台湾“中研院”、日本东京大学东洋文化研究所、中国华东师范大学等机构也相继研制出几种甲骨文数据库,国学大师网站等个人开发的数据库也有部分可公开使用。依托安阳师范学院的甲骨文信息处理实验室研发的甲骨文数据平台“殷契文渊”是近年来甲骨文数据库建设方面的重要成果,该平台包括甲骨字形库、甲骨著录库和甲骨文献库三个数据库。甲骨字形库收录172个部首和4049个甲骨文单字;甲骨著录库(含甲骨缀合库)收录46部著录,共112517片甲骨的信息,缀合库存储了已缀合的甲骨片信息;甲骨文献库完成29426篇文献和282部专书的数字化[12]。

目前甲骨文数据库在甲骨文资源的数字化方面做出了不少成绩,很大程度上方便了学者进行研究工作,但仍有不足之处。由于各单位在相对独立的情况下进行数据库的开发建设,因而已建成的数据库不可避免地存在重复收录的情况,造成了一定的资源浪费。数据库建成后数据更新不及时、系统维护缺位的问题也影响了数据平台的使用。因此,后续的数据库研发有必要重视互通性,数据的时效性和平台的实用性也有待改进[13]。

二、甲骨文的检测与识别

作为刻于龟甲兽骨上的早期文字,甲骨文的书写和排列并不如后世汉字那么规范,从一块甲骨上将文字和非文字区分开就成为进行甲骨文研究的前提。采用传统方法选取文字部分需要投入的人力和时间成本相当大,而利用计算机技术进行甲骨文的自动检测则会事半功倍。

首先,甲骨文字检测的实现依赖于目标检测技术的发展,学界一般将检测分为传统目标检测和基于深度学习的场景检测。姜维等在论文中详细论证了传统场景检测理论和深度学习理论下的目标检测的优劣[14]。史小松等则分别利用两种方法进行过甲骨文字符定位实验,他们通过基于阈值分割方法和基于形态学方法实现了部分甲骨拓片的文字提取,但是在噪声严重的条件下检测结果不尽如人意[15]。此外,史小松等还针对当前图像目标定位算法对解决图像目标发生形变的条件下进行目标定位存在的问题,提出基于稀疏活动轮廓模型的甲骨拓片图像目标自动定位算法并缩短了检测定位时间[16]。

近年来深度学习理论推动了目标检测方法的革新。深度学习又称深层神经网络(DeepNeuralNet Work,DNN),它是一类通过多层非线性变换对高复杂性数据进行建模的算法合集[17]。这类算法通过模拟人脑神经决策过程,拥有强大的特征表达能力和函数拟合能力。目前逐渐形成了以卷积神经网络、深度置信网络、栈式自编码网络和递归神经网络为核心的深度学习模型体系[18]。

研究人员也适时地探索新技术应用于甲骨文字符检测的工作。王浩彬、黄双萍构建了甲骨文检测数据集OBCD(OracleBoneCharacter Detection),为深度学习技术应用于甲骨文字符检测工作提供基准数据库,同时引入动态增广算法和甲骨文字符特征辅助识别算法,有效提高了甲骨文字符检测精度[19]。安阳师范学院刘国英团队也在这方面做出了不少有益的工作[20-21]。刘芳等在详细分析甲骨文特征的基础上,提出基于MaskR-CNN改进的深度学习模型,通过对训练样本集的特征学习,实现了对甲骨文拓片上文字的自动定位、检测与识别,检测准确率有所提高[22]。

其次,甲骨文字符检测仅是深度学习的基础,利用技术实现高效的甲骨文识别将对甲骨文释读有重大意义。1996年,周新伦等就将甲骨文字符抽象为点和线组成的无向图并提取其拓扑特征进行两级分类识别,实验结果识别准确率较高[23]。李锋等又同样基于图论理论和技术设计了甲骨文字符的三级识别,三级累计识别率为92.27%[24]。吕肖庆等利用曲率特征分析的方法对甲骨文图像进行分类,分类准确率为90%[25]。栗青生等通过将甲骨文抽象为无向图,利用图的同构判定算法来识别甲骨文[26]。高峰等提出基于语境的统计分析和Hopfield网络相结合的模糊匹配识别方法[27]。顾绍通通过分析甲骨文字形拓扑顶点之间的拓扑关系实现甲骨文字形的拓扑描述,利用拓扑配准的方法,计算基准拓扑与待配准拓扑之间的欧氏距离,从而实现基于拓扑结构的甲骨文字形的配准,从而识别甲骨文字形[28]。他还利用分形几何的原理实现甲骨文字形描述的形式化,再将甲骨文字形的分形描述码与分形特征库进行配准,从而识别甲骨文字形[29]。刘永革等采用支撑向量机分类技术研究甲骨文字图片的识别技术,通过实验证明达到88%的准确率,但是由于异体字出现频率较高,准确率仍有待提高[30]。

深度学习理论革新也推动了甲骨文字符自动识别的研究工作。2015年,郭俊等提出了多层次甲骨文字符表示方法,对图像中的中层特征,利用稀疏自编码进行表示,对底层特征,利用Gabor进行表示,再将二者结合对甲骨字符进行描述,并将这种草图识别技术与基于卷积神经网络的模型相结合进行甲骨文的识别,在甲骨文字数据集上取得了较好的识别水平[31]。鲁旭正设计了一种基于Capsule和迁移学习的模型RadicalNet,用于识别和提取甲骨文的构件。通过对甲骨文构建的多目标识别实现甲骨文字形识别功能[32-33]。王琦琦基于卷积神经网络对甲骨文字提取Gabor特征、梯度特征和Hog特征作为先验知识映射到网络输入层,提升模型识别正确率[34]。刘梦婷构建了甲骨文字图像数据集OBIS163,并对数据集进行了扩增和去噪的预处理[35]。高旭同样对原始甲骨文数据集进行了数据扩充、图像去噪和图片归一化的预处理,并在改进的ResNet网络模型基础上设计了甲骨文识别系统[36]。赵一文尝试利用Capsule网络解决甲骨文识别准确率问题,实验证明Capsule网络比其他CNN网络模型准确率更高[37]。门艺等也基于深度学习的人工智能手段实现甲骨文的定位、识别及释读工作[38]。张颐康等提出了一种基于深度度量学习和最近邻分类的跨模态甲骨文字识别框架,相对于传统的CNN分类框架和单模态识别方法都具有明显的优势[39]。林小渝团队构建了甲骨文偏旁和甲骨文合体字数据集,提出了两种以甲骨文偏旁为构件的卷积神经网络检测识别方法,为甲骨文识别考释提供了新的思路[40]。

甲骨文检测和识别已经取得了一定的成绩,但甲骨文字残缺较多、异体字出现频率高、甲骨样本类别少等问题仍将阻碍着其自动检测和识别的质量提升[41]。

三、甲骨文编码与甲骨文输入法

甲骨文虽已是一个相对成熟的文字系统,但古文字毕竟与现代汉字有诸多不同。其没有规范的笔画,不少字的读音也无从知晓,这种情况下想要实现甲骨文的计算机输入,编制简明易用的编码表就是一条必经之路。

1994年,李季民就尝试编制甲骨文编码电脑字典,这套码以四位为限,码元全部取用标准输入键盘主盘字符。这套码规则简明,字根易记,界面清晰[42]。华中师范大学的肖明、胡金柱等对甲骨文编码做了较为深入的研究。1999年,肖明等在论文中介绍了面向对象的Petri网(OOPN)方法,并将它应用于甲骨文象形码编码的设计过程中,给出了基于面向对象的Petri网的甲骨文编码的类层次结构图[43]。2002年,肖明等建立了甲骨文信息处理的模糊信息模型,利用模型分析甲骨文的部件(字根)和码元的确定规则,使用32个字符(25个英文字母和7个阿拉伯数字)作为码元,与甲骨文中的500多个字根相对应,首次实现了一字一码的编码方案。并且通过分析得出甲骨文最佳码长接近3,从而为对5000多个甲骨文字的编码提供了理论基础[44-46]。郝文勉则通过分析最小的构形单位“线”以及线与线之间的关系去解析甲骨文结构,归纳出独立性、相触性、交叉性和对称性四个甲骨文线性结构特征,作为提取码元之基础,进而形成甲骨文编码方案[47]。李东琦等结合甲骨文字的构件特点,分析并设计了基于NET平台的甲骨文字编码器[48]。以上编码方式多从甲骨文字形特点出发,可称为“形码”,由于甲骨文多数难以拼读,所以基于读音的音码研究者较少。

实现计算机输入是甲骨文走向信息化应用的重要一环。1995年,徐松等基于甲骨文象形码吸取甲骨文的传统部件的优点,从字形上找到突破口,为多个甲骨文进行科学编码时使用了26个英文字母和9个阿拉伯数字,从而实现了一字一码的编码方案。他们开发的“甲骨文象形输入法”兼具了甲骨文的查找与输入两种功能[49]。2010年,聂艳召等研发了甲骨文自由笔画输入法。通过对甲骨文的笔画特征进行分析,将构成甲骨文的笔画归纳为点、横、竖、撇、捺、弯、曲、框、圆9种笔画,在此基础上设计了甲骨文笔画输入法,该工具可以为甲骨文工作者提供方便快捷的输入途径,以提高效率[50]。栗青生等提出了基于有向笔段的甲骨文输入系统,利用有向笔段的描述方法去描述甲骨文字元,再由字元拼接为字形,较好地解决了甲骨文中弧线笔元的描述方法[51]。该团队还提出甲骨文字形动态描述方法,为甲骨文异体字和未识别甲骨文的输入找到了解决思路[52]。2004年,刘永革等开发了可视化输入法。这种方法采用“所见即所得”的方式,将所有的甲骨文字按照部首划分类,难检字单独成一类,通过鼠标点击图片输入甲骨文字[53]。手写输入法是使用者在终端界面手写输入,软件进行识别后再将匹配的甲骨文输入系统。据上文所引刘永革等《甲骨文输入法综述》介绍,厦门大学开发了一款甲骨文手写输入法,该输入法可通过鼠标在提供的虚拟手写板上通过直接书写甲骨字再选择识别结果完成甲骨文字输入。安阳师范学院甲骨文信息处理实验室研发基于深度学习的甲骨文识别系统,并基于此开发了新的手写甲骨文输入系统,并在“殷契文渊”网站中推出了手写检索甲骨字的功能。

四、基于大数据的甲骨文考释与语义分析

甲骨文作为记录商代晚期语言的符号,其语义与辞例失传已久,现代人必须依靠专业知识才能对其考证研究并加以利用。对甲骨文句进行深入学习,大数据的语义和辞类检索是一个可行路径。韩姣红提供了一种基于本体的甲骨文文献查询技术,通过本体构建、语义标注等技术提高了甲骨文领域文献检索的查准率和查全率,并研制了甲骨文文献综合检索系统[54]。安阳师范学院吴琴霞等针对传统语义标注的不足之处,基于甲骨文卜辞信息的特殊性,提出了一种基于本体的甲骨文专业文档标注方法[55]。

对未识字进行考释是计算机在甲骨文研究中的另一重要工作。聂艳召等将甲骨文字形演变知识数字化,建立基础数据表,构建演变规律知识库,开发出了辅助考释的原型系统[56]。葛彦强等根据甲骨文字、文、图合一的特点提出了从结构、上下文、与金文的演变相结合的辅助考释方法,构造甲骨文的贝叶斯网络,构建了甲骨文的特征属性语料库和案例库,开发了供甲骨文专家使用的辅助考释系统[57]。为提高甲骨文考释效率,熊晶等提出利用计算机辅助甲骨文考释,结合上下文语义环境来辅助甲骨文考释[58]。2018年,焦清局等使用大规模的拓片信息创新性地构建了甲骨字网络,在其构建的甲骨字网络中充分捕捉了甲骨文语义单元信息,保留了甲骨文中单音字多的特性,同时该网络的中边权重反映了甲骨字之间的同现关系[59]。2020年,该团队利用甲骨文拓片数据构建了甲骨字网络,对未识甲骨字在网络上的重要性、信息丰富度及闭合性进行研究,结合网络特性和拓片的上下文语境对未识甲骨字的场景语义进行了预测[60]。

甲骨文知识图谱的构建也有利于其文字考释和语义分析。熊晶等还针对甲骨文的特点及其与现代汉语的内在联系,提出双向活动铰接法的甲骨文本体构建模型[61]。2015年,他们又提出了构建甲骨文知识图谱的方案,以解决甲骨文专家知识应用率低的问题,其关键技术是发现知识图谱中实体的关联关系[62]。2020年,熊晶等进一步基于甲骨学MKD和甲骨学KG的构建方法,通过实体对齐、关系融合和知识推理得到最终的甲骨学知识图谱[63]。2020年,该团队论证了构建大规模跨模态的甲骨学知识图谱在甲骨文知识管理与共享、考释和缀合方面的重要性[64]。卜辞文本聚类也是建立卜辞语义主题和未释甲骨字之间关联的重要任务之一,是甲骨文考释、缀合等工作的有效手段。马园园等针对甲骨卜辞数据,提出一种基于对称非负矩阵分解的无监督文本聚类方法[65]。

利用计算机对甲骨文语句进行翻译也是未来甲骨文信息化应用的一个方向。袁冬等提出基于实例的甲骨文释文机器翻译技术研究方案[66]。熊晶等为解决基于实例的甲骨文机器翻译缺乏深层次语义分析的问题,引入了本体技术,采用实例和本体相结合的办法,分阶段实现甲骨文语句的机器翻译[67]。熊晶等还研究了基于翻译记忆的计算机辅助翻译技术[68]。这种方案优势在于准确度较高,但翻译的准确度受记忆库规模大小和语句复杂程度限制比较明显。

五、结语

自20世纪70年代至今,甲骨学和计算机技术的研究者孜孜不倦地联合推动了甲骨文数字化的进步。特别是21世纪以来,伴随人工智能新科技的发展浪潮,甲骨文信息化取得了丰硕的成果。数字处理和深度学习在甲骨文检测与识别中的应用,知识图谱在甲骨文语义分析和未识字考释方面的引入,都极大地开拓了甲骨文资料进一步数字化、信息化、智能化的应用范围和场景。几十年间,各种甲骨文的数据库、资源平台逐渐开放,甲骨文输入法的部分投入使用,计算机辅助甲骨文考释、翻译的技术实验,均预示着甲骨文数字技术应用研究的光明前景。然而,我们也必须看到,这里仍存在着一些深层次的问题。数据库建设方面的互通性、兼容性不足,已建成的数据平台维护质量不够稳定及其更新速度缓慢,古文字专家参与度不够导致的计算机技术人员对甲骨文自身特征把握不足,甲骨学术界有关分类、分期、考释等重大问题本身存在的争议等,都是影响甲骨文信息化成果创新和应用范围的诸多不利因素。总之,甲骨文信息化之路任重道远。

﹝本文是2018年度国家社科基金西部项目“深度学习技术支持下的甲骨文自动识别系统研究(项目编号:18XKG003)”阶段成果。﹞

猜你喜欢

缀合甲骨甲骨文
旅顺博物馆藏吐鲁番蒙书叙录与缀合
字溯甲骨∙文承龙韵
说甲骨新缀所见的“南孟”与“奠子方”
甲骨释字四则
甲骨文“祸”字新证
三千年甲骨文
敦煌本《大方等大集经》残卷缀合研究
敦煌佛经残卷缀合释例
敦煌疑伪经三种残卷缀合研究
刻在甲骨上的爱情