《康熙字典》的古汉语知识图谱构建方法研究
2019-12-05陈涛杨开漠
陈涛,杨开漠
(五邑大学 智能制造学部,广东 江门 529020)
《康熙字典》是康熙四十九年由张玉书与陈延敬等人所编写的词典,其包含了丰富的古汉语文化以及语义信息. 该词典采用部首分类法进行分类,并按笔画对单字进行排序. 全书共分为十二集,以子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥十二地支进行标识,每集又分为上、中、下三卷,并按韵母、声调以及音节分类排序韵母表及其对应汉字,共收录汉字47 035 个[1-3].
如果能够挖掘词典中包含的部首、集、卷及汉字间的语义关系,将有利于促进《康熙字典》的研究进程. 知识图谱(Knowledge Graph)是一种对知识的深层语义描述的方法,其主要利用图的形式来描述客观世界中的概念、实体及其关系. 虽然现有的知识图谱(例如 WordNet[4]、Freebase[5]、Zhishi.me[6]、XLore[7])已经成为当今许多人工智能和自然语言处理应用的重要资源,但是知识图谱的一个迫切问题是覆盖范围问题. 即使是目前规模最大的 XLore[7]中文知识图谱也未能将《康熙字典》中所包含偏僻汉字和偏僻汉字间的关系全部描述出来,因而也无法进一步挖掘《康熙字典》中所存在的语义关系. 为了帮助研究者对《康熙字典》中所蕴涵的语义关系进行分析和表达,本文提出一种针对《康熙字典》的知识图谱构建方法,在该基础上设计一套基于推理规则的内部关系推理方法,以进一步挖掘《康熙字典》知识图谱中所隐含的实体和实体关系知识,并将该技术应用于《康熙字典》的知识图谱构建及搜索系统中,提高该系统知识推荐效果.
1 《康熙字典》的古汉语知识图谱构建方法
本文提出的《康熙字典》古汉语知识图谱构建方法的基本框架如图 1 所示. 首先,以《康熙字典》中每个词条对应的词作为命名实体构建命名实体库. 其中,命名实体库所包含的命名实体类型有汉字、部首、集、卷和典籍. 然后,结合外部中文知识图谱和外部词典,对实体库中的实体构建实体间关系,建立关系库. 对于同时出现在外部资源中的两个实体,将该外部资源中标注的关系经过筛选后补充到基于康熙字典的关系库中. 本文所选用的关系类型主要有部首与集间的上下位关系、集与卷间的上下位关系、卷与汉字间上下位关系、汉字与典籍间的引用关系、汉字间的反义关系和近义关系. 本文所用到的中文知识图谱包括Zhishi.me[6]、XLore[7]等,所用到的词典包括在线词林以及在线汉语词典. 其次,根据关系库构建知识图谱,对知识图谱进行质量评估,即对命名实体库和实体关系库进行抽样质量评估,若存在实体或实体间关系质量不符合要求,需要剔除未达到质量评估要求的关系,并重新进行关系构建. 最后,利用图数据库存储知识图谱,并进行知识图谱的可视化展示.
图1 本文提出的《康熙字典》的古汉语知识图谱构建方法的基本框架
1.1 数据源和预处理
本文以上海书店出版社1996 年出版的《康熙字典》[1]为数据源构建古汉语知识图谱. 对《康熙字典》数据集进行预处理操作包括以下步骤:首先, 利用光学字符识别( Optical Character Recognition,OCR)技术对《康熙字典》的图像文件进行分析识别处理,以识别并获取《康熙字典》图片中所存在的文字信息,并将这些文字信息转化为电子文本数据格式;然后,结合网络上可供下载的“康熙字典数据库”,清除电子文本中所存在的冗余数据,如标题、目录、无法识别汉字等;最后,对电子文本数据进行断句处理,将所有词条逐一处理成如图2 所示的样例形式.
图2 《康熙字典》内容样例
1.2 命名实体库构建
本文主要从《康熙字典》中抽取出部首、集、卷、汉字以及古代诗文五种实体作为核心实体. 结合《康熙字典》内容排版特点以及不同核心实体在《康熙字典》语料库中的位置特点,提出一套用于抽取《康熙字典》中不同核心实体的规则,以达到自动抽取《康熙字典》中对应核心实体集的目的. 该规则所抽取到的实体集如表1 所示.
表1 命名实体库统计与示例
1.3 关系库构建
实体间的关系是知识图谱的另外一个基本要素,直接决定了实体知识图谱中知识的丰富程度和基于知识图谱的其他应用系统的功能范围[8-9]. 《康熙字典》的实体关系构建任务的主要目标是研究如何抽取《康熙字典》中部首与集之间的上下文关系、集与卷之间的上下文关系、卷与汉字之间上下文关系、汉字与典籍之间引用关系、汉字实体之间的近义关系以及反义关系六种语义关系. 本文主要采用以下两种方法来定义关系.
第一种方法是《康熙字典》内部规则关系构建法. 该方法根据《康熙字典》内部排版结构进行关系抽取,利用知识图谱中的模式层定义知识图谱中所应用到的数据模式. 其中,数据模式主要包含实体类型和实体间关系等信息. 本文定义的实体类型之间的上下位关系,如图 3 所示. 从图中可以看出,实体类型“集”与“部首”之间、“卷”与“集”之间、“汉字”实体与“卷”之间都存在上下位关系. 本文利用“属于”表示两个实体或实体类型之间的上下位关系. 同时,实体类型“典籍”引用“汉字”实体,所以这两类实体之间存在“引用”关系.
图3 实体关系图
所抽取到的实体关系的集合一般以三元组〈头实体,关系,尾实体〉的形式表示. 例如(集,属于,部首)、(卷,属于,集)、(汉字,属于,卷)、(典籍,引用,汉字). 为了区分部首中集和集中卷的不同,本文以“部首+集”和“部首+集+卷”表示不同部首下的集以及不同集下的卷. 例如,“一巳集”、“一巳集上”等,如表 2所示.
表2 实体关系示例
利用以上方法从《康熙字典》中抽取出集与部首之间上下位关系、卷与集之间上下位关系、汉字与卷之间上下位关系、典籍与汉字之间引用关系等四种关系,数量与示例统计如表3 所示.
表3 内部规则关系构建法抽取出的三元组数量及示例
第二种方法是参考外部知识构建关系的方法. 该方法通过参考现有的准确度更高的中文知识图谱或数据源百科,例如Zhishi.me、XLore 等中文知识图谱,在线词林、在线汉语词典等在线词典进行关系抽取. 该方法首先从命名实体库中抽取出命名实体. 然后,在现有的中文知识图谱或百科中查找与该实体具有某种关系的实体,并对其建立实体间关系,其中,本文选用的关系类别主要有近义关系、反义关系等. 例如,汉字实体“专”和汉字实体“擅”在Zhishi.me 中是近义关系,汉字实体“擒”和 “放”在Zhishi.me 中是反义关系,我们将上述关系补充进康熙字典的实体关系库中. 最后,对所抽取的关系进行过滤,从中抽取出具有价值的关系. 该方法作为第一种方法的补充,能够有效地解决第一种方法难以抽取出的汉字之间关系的问题.
利用该方法从《康熙字典》中抽取出汉字间的近义关系和反义关系,如表4 所示. 汉字实体“櫲”与“樟”之间、“丂”与“考”之间、“擅”与“专”之间、“擈”与“扑”之间都属于近义关系,汉字实体“横”与“竖”之间、“叛”与“顺”之间、“擒”与“放”之间、“亏”与“盈”之间都属于反义关系.
表4 参考外部知识构建关系方法所抽取出的三元组数量及示例
1.4 质量评估
数据质量体现了该数据在其相关领域下的“实用性”,数据质量的好坏会影响该数据在其相关领域下的应用质量. 其中,数据质量问题主要包含准确性、完整性、一致性等问题[10-11]. 命名实体库和实体关系库中的数据质量对于构建《康熙字典》的古汉语知识图谱具有决定性意义.
本文面临的一个重要问题是如何评判所构建的命名实体库中实体和实体关系库中实体关系的质量. 针对该问题,本文需要确定具体、客观和可比较的数据质量指标,其中包括实体及实体间关系的准确性、语义表达的正确性以及实体间关系的覆盖性.
对于实体及实体间关系的准确性,因为本文利用程序自动从《康熙字典》中抽取出部首、集、卷、汉字及典籍等五种实体集,所以需要利用人工抽样检查方法来保证所抽取实体的准确性. 同时,对于实体间的“属于”和“引用”关系,可以利用同样的方法进行检查. 对于汉字实体间的“近义关系”和“反义关系”的质量评估,需要通过人工检索多个相关性网站,从中寻找可信度高的答案作为结果.
1.5 知识图谱模型构建及可视化
本文利用前期所构建的命名实体库和关系库来构建《康熙字典》的古汉语知识图谱. 将上述命名实体库和实体关系库中的实体及关系导入图数据库中,通过图数据库提供的程序接口,能够方便的查询知识图谱中实体及其关系,并根据需求进行数据可视化. 图 4 为《康熙字典》的古汉语知识图谱部分节点的可视化展示.
图4 《康熙字典》的古汉语知识图谱部分节点的可视化展示
2 结果与分析
《康熙字典》的古汉语知识图谱中各部分实体及其关系如下所示:
部首、集与卷间的上下文关系. 查询实体“口字部”和与其相关的集及卷间的关系,其查询结果如图5 所示. 从图5 中可以看出,深灰色节点表示实体“口字部”,白色节点表示部首实体“口字部”所包含的集实体,其中,包括“口子集”、“口午集”、“口戌集”等集实体. 浅灰色节点表示集实体所包含的卷实体,比如,集实体“口戌集”包含卷实体“口戌集下”,集实体“口丑集”包含卷实体“口丑集中”等. 节点间的有向边及其上面的“属于”表示部首实体与集实体间、集实体与卷实体间的上下文关系.
图5 部首、集及卷间的关系图
卷与汉字间的上下文关系. 查询卷实体“口字部”和与其相关的集及卷间的关系,其查询结果如图6 所示. 灰色节点表示卷实体“一子集上”,白色节点表示卷实体“一子集上”所包含的汉字实体,其中,包括“一”、“上”、“丁”、“下”,“万”等汉字实体. 卷实体与汉字实体间的上下文关系通过节点间的有向边及其上面的“属于”表示.
图6 卷和汉字间的关系图
3 《康熙字典》的古汉语知识图谱的应用
《康熙字典》的古汉语知识图谱能够有效地管理和利用《康熙字典》中知识,为古汉语研究人员提供丰富的知识点间关联信息,从而抽取出新的汉字知识,为古汉语研究提供知识和理论基础. 以下列举两个可能的应用领域:
3.1 网络知识关系挖掘
网络知识关系挖掘指的是以一个实体作为中心点,以知识图谱可视化的形式挖掘和查找与该实体具有相关关系的汉字实体、部首实体、典籍实体、集合实体、卷实体等. 在《康熙字典》知识图谱中,每一个实体利用一个节点表示,实体间的关系用对应节点间的有向边表示,如图7 所示.
从图7 可以看出,实体“康”与实体“平”之间存在近义关系,他们共同引用“唐韵”、“集韵”、“广韵”等典籍实体. 实体“康”与实体“病”之间存在反义关系. 实体“康”、实体“平”及实体“病”都引用了典籍实体“正韵”. 当《康熙字典》中实体关系比较复杂时,《康熙字典》古汉语知识图谱能够帮助古汉语研究者更好的进行分析.
图7 网络知识关系挖掘示意图
3.2 路径挖掘
路径挖掘指的是从知识图谱中搜索出指定实体间的最短路径. 图 8 展示了典籍实体“玉篇”与典籍实体“徐曰”之间的最短路径.
从图8 中可以看出,典籍实体“玉篇”与典籍实体“徐曰”均被汉字实体“夌”所引用,汉文化研究者可以通过研究汉字实体“夌”,间接研究典籍实体“玉篇”与典籍实体“徐曰”. 《康熙字典》中实体路径关系越复杂,越能体现知识图谱的价值.
图8 路径挖掘示意示例
4 总结
针对现有中文知识图谱对《康熙字典》中词语实体间关系定义不足、覆盖不全的问题,本文提出一种针对《康熙字典》的知识图谱构建方法,该方法可为古汉语研究提供知识和理论基础,但由于本文知识图谱所用到的内部关系推理方法是基于简单的推理规则,还无法获取《康熙字典》中所包含的更深层次的语义信息. 在未来的工作中,可以结合深度学习进一步探索内部规则推理方法,并将新方法应用到现有的《康熙字典》的知识图谱构建和搜索系统中,以挖掘《康熙字典》中所包含的深层次信息.