军事法律法规元知识网络的构建研究*
2023-10-20刘奕明谢振杰
刘奕明,段 立,谢振杰
(海军工程大学电子工程学院,武汉 430033)
0 引言
随着军事高新技术的不断发展,战争进入了以信息技术为主导的“信息兵器时代”,这对指挥信息系统的综合信息服务能力提出了更高要求。军事法律法规作为指导战场行动的重要依据,重要性不可忽视。信息化战争下,传统的人工查阅文本的方式显然已无法满足辅助决策需要,军事法律法规问答系统应用前景广阔。
构建基于知识图谱问答系统的重点和难点在于建立高质量的图数据。目前公开的具有通用本体知识的数据集包括WordNet、Cyc、DBpedia、YAGO、Freebase、NELL 与Wikidata 等[1-7]。专业领域数据集用于评估专业领域任务,例如标准医学用语系统(unified medical language system,UMLS)、商用门诊术语数据集SNOMED CT[8-9]等。由此可见,目前的知识图谱研究主要集中于开放域知识,而在军事法律法规专业域内,未见大规模开源图谱工作,难以很好地支持军事法律法规问答。
基于知识图谱的问答以“实体-关系-实体”三元组为基础,实体类型与关系类型较为明确。相比之下,军事法律法规专业性强、信息量大,在此基础上的问答系统知识细化、概念多样、关系复杂。在构建军事法律法规知识图谱的过程中发现,使用现有的命名实体识别与关系抽取技术所构建的知识图谱质量不高,各法律条目的语义信息与逻辑严重丢失,大量有用信息无法简单地以三元组形式保留为图数据,难以满足搭建问答系统的需要。此外,现有基于知识图谱的问答系统一般以短答案的形式呈现问答结果,无上下文和出处,即可解释性不足,而战场行动牵一发动全身,指挥员依据战场态势作出判断决策需要更详细的法律法规支持,每一步都应做到有据可查。因此,需要借助其他手段或全新的知识表达方法为军事法律法规问答应用提供支撑。
近年来,随着以多跳问答为代表的一系列复杂问 答 任 务 和WebQuestions、ComplexQuestions、WebQuestionsSP、SQuAD 等复杂知识库问答评测数据集的出现[10-13],三元组知识表达能力不足的短板逐渐显现。为了弥补现有知识库的能力限制,一个普遍做法是引入文档等异质数据以丰富语义信息,称为基于文档的问答(document-based question answering,DbQA)方法[14]。文献[15]将文档进行多粒度建模,构建层次图,通过机器阅读理解的方法进行图推理和答案预测。由于军事法律法规文档的层次结构大多以各级标题形式呈现,且各段落与各级标题间的语义关联度较高,因此,对军事法律法规文档进行结构化表示,将文档结构等异质数据融入知识图谱,成为了一种可探索的研究思路。
元知识为描述知识的知识(knowledge about knowledge),反映了具体知识的逻辑关联[16]。早期的人工智能相关研究探索了元知识的数据实现方式和应用场景[17-22],但受限于数据、工具和计算条件,元知识未能成为知识工程领域的主流研究对象。目前,新的知识挖掘、知识表示方法不断涌现,为推进元知识研究提供了条件。
本文从公开军事法律法规入手,将元知识作为文本的结构化表示方法,使用基于规则的方法抽取结构要素,使用BERT+BiLSTM+CRF 模型与浙江大学DeepKE 工具包抽取语义要素[23-24],构建了军事法律法规元知识网络,可为问答系统及相关应用提供支撑。将文档各级标题作为节点融入元知识网络,一方面使同一标题下的实体具备语义相关性,另一方面大量无法以三元组形式存在的知识得以保留。与传统知识图谱中的三元组相比,元知识的语义丰富性与层次性有了提高,更好地反映了知识间的逻辑关系。同时文档结构信息也可满足问答系统对可解释性的需求,即针对某一问题,在给出短答案的同时,输出答案所在段落及其所属条目作为完整解释,可更好地为指挥员提供军事决策辅助。
1 预备知识
元数据为描述数据的数据,是关于数据的组织、数据域及其关系的信息,反映了数据的属性特性。在军事法规特点的基础上,参照元数据的定义,引入元知识的概念,在一定程度上弥补三元组的缺陷。元知识是描述知识的知识,可用来描述一类知识或知识集合所包含的内容和一般特性,可作为知识的索引。
定义1 通过关系链接起来的一定规模的实体所形成的语义网络(semantic network),称为具体知识,简称知识(knowledge)。“实体-关系-实体”三元组(triplet)是构成知识的基本单元[25]。
定义2 元知识(metaknowledge)是知识的结构化表示,是具有结构特征的知识,其结构反映了知识“递进”或“并列”的逻辑。
定义3 以文档为数据来源生成的元知识称为文档元知识(document metaknowledge),其结构特征通过文档的各级标题体现出来,这种层次结构蕴含着文档各部分之间起承转合的内在逻辑。
定义4 一定规模的文档元知识通过文档之间的语义相关性链接形成的网络,称为文档元知识网络(document metaknowledge network),简称元知识网络(metaknowledge network)。
各级标题下的段落是文档的基本语义单元,是文档具体知识的直接来源。从段落中抽取的实体和关系构成了具体知识,将具体知识按照其所属的各级标题,以文档结构的形式有序地组织起来,即构成了文档元知识。成规模的文档元知识通过文档主题之间的语义相关性建立链接,形成了元知识网络。
各级标题在生成元知识时均被视为实体,称为层次实体;要素之间从属或并列的层次结构关系称为层次关系;层次实体与层次关系构成了结构要素。从文档段落正文中抽取出的实体和关系分别称为语义实体和语义关系,它们并称为语义要素。
元知识即包含了文档结构信息的三元组知识,各级标题作为元知识层次实体,搭建了文档元知识的基本框架。正文中的语义实体作为层次实体的下属节点,以共同的层次关系为纽带,具备了相关性。而传统知识图谱中的三元组仅链接了语义实体,不涉及层次实体,一方面位于同一标题下的实体由于不具备层次关系而失去了相关性,另一方面未标注语义关系的实体无法以三元组的形式融入知识图谱。
军事法律法规的层次结构非常清晰,各级标题对所属内容概括很精确,同一标题下看似没有语义关系的实体有较强的相关性,实体的各级标题也能指明其主旨。所以,相比于传统知识图谱,包含了文档结构信息的元知识网络更适合用来表示军事法律法规。
2 军事法律法规元知识网络构建
构建军事法律法规元知识网络的输入为非结构化的文档集,流程大致可分为元知识结构要素抽取、元知识语义要素抽取、文档元知识构建和语义相关度量4 部分,如图1 所示。
图1 军事法律法规元知识网络构建流程Fig.1 The construction flow of metaknowledge network of military laws and regulations
2.1 元知识结构要素抽取
各级标题为层次实体,上下级标题间的从属关系为层次关系,二者共同构成元知识结构要素。通过分析军事法律法规库,发现其文档层次清晰,各级标题具有很强的规律性,故本文采用基于规则的方法对文档结构要素进行抽取。军事法律法规的标题表述形式如表1 所示。
表1 军事法律法规标题形式Table 1 The headline form of military laws and regulations
对文档进行文本清洗,即检查换行、空格、缩进、括号等字符,确保全文规范统一。基于标题表述规则识别文档中的各级标题和正文。将文档内容进行结构化表示,以XML 格式输出。转换后的XML 文档结构如下:
文档结构要素抽取结果如图2 所示(以《国际海上避碰规则》为例,下同)。
图2 文档结构要素Fig.2 The structural elements of documents
2.2 元知识语义要素抽取
元知识语义要素由语义实体和语义关系构成。例如,人员、单位、装备、奖励、处分、动作、口令和场地等视为语义实体,执行权限、应获奖励、应受处分、速度、角度和距离等视为语义关系。
对部分文档进行“B-I-O”实体标注与“h- r-t”关系标注。使用标注文档对BERT+BiLSTM+CRF 实体抽取模型及DeepKE 少样本关系抽取模型进行训练[23-24]。使用训练的模型对军事法律法规文档进行语义要素抽取。结果如图3 所示。
图3 文档语义要素Fig.3 The semantic elements of documents
需要注意的是,由于训练数据集规模有限,抽取完成后应进行数据质量检查,如果抽取效果不理想,可考虑标注更多文本用于训练,或调整模型参数。其次,部分语义实体在同一段落内反复出现,视为同一实体,应将其对应的语义要素进行融合。
2.3 文档元知识构建
以文档的结构要素为框架,将语义要素下挂至所属的各级标题(层次实体),构建文档元知识,如图4 所示。
图4 文档元知识Fig.4 Document metaknowledge
文档元知识以JSON 字典形式保存,示例如下:
上述示例展示了层次实体、语义实体、层次关系和语义关系的描述方法。其中,“position”字段指明了实体类型及其在文档中的位置,是实体溯源以及体现邻近实体相关性的关键。将构建好的文档元知识保存为JSON 文件,可随时按需加载。
2.4 语义相关度量
在文档元知识内部,实体之间已通过层次关系和语义关系建立链接,但标注的语义关系仅限于同一段落内部。然而,文档的不同章节之间、不同文档之间也存在广泛联系,人工标注如此海量节点的相关性是不现实的,应引入自动化的方法实现各章节之间以及跨文档的语义相关度量,将文档元知识集合构建为相互之间存在语义关联的元知识网络。
设有n 个相互联系的文档D1,D2,…,Dn,分别生成文档元知识M1,M2,…,Mn。令vH1∈M1和vH2∈M2是来自不同文档的两个层次实体,语义嵌入值分别为embH1=LM(textH1)和embH2=LM(textH2),其中,textHi表示各级标题的拼接文本(例如上节10331#层次实体对应的标题文本为“国际海上避碰规则驾驶和航行规则船舶在任何能见度情况下的行动规则 安全航速”),LM(·)为BERT 预训练语言模型,其输出为稠密语义向量。使用余弦相似性(cosine similarity)计算embH1和embH2之间的语义关联,若高于设定阈值,则为vH1和vH2建立跨文档的“语义相关”关系。
语义相关度量需计算大量层次实体的语义嵌入值并进行比对,输出结果为文档元知识集合内全部层次实体的相关性矩阵,适合以稀疏矩阵(称为语义相关矩阵)进行存储和计算。正是由于军事法律法规的标题精确而规范,来自不同文档的节点才得以通过各级标题语义上的相关性建立联系,从而使原本孤立的文档元知识相互链接形成元知识网络。
3 实验与分析
本文以3 部公开的军事法律法规为例,构建元知识网络,验证了所提流程和方法的可行性。3 部法规各取前5 章内容,构成的元知识网络的拓扑结构,如图5 所示。
图5 元知识网络的拓扑结构(局部)Fig.5 The topology(local)of metaknowledge network
图5 表明,构建的元知识网络具有明显的分层特性,下级节点以层次关系链接到上级节点,形成树形结构,节点之间通过语义关系相互链接(图中未绘制),形成更加复杂的网状结构。临近的叶节点(语义实体)之间即使没有标注语义关系,也因其属于同一上级节点而具备了相关性,并通过语义相关矩阵与来自其他文档的节点广泛建立联系。
作为对比,同时构造了这3 部法规的知识图谱。二者的基本拓扑性质如表2 所示,度分布(双对数坐标)如图6 所示。
表2 元知识网络与知识图谱的基本拓扑性质Table 2 The basic topological properties of metaknowledge network and knowledge graph
图6 元知识网络与知识图谱的度分布Fig.6 Degree distribution of metaknowledge network and knowledge graph
与元知识网络相比,知识图谱不包含结构要素,且舍弃“孤立”的语义实体,故节点和边的数量明显减少,平均度降低表明节点之间的联系减少;平均聚类系数为0,反映了其内部节点较为孤立,没有聚集成环状结构。因此,对于本实验所用的文档集合,知识图谱信息失真较为严重,可见其并不适用于结构严谨、语言精炼、语义丰富且篇章之间存在复杂关联的军事法律法规。而元知识网络引入结构要素作为框架,保留未标注语义关系的实体,节点之间通过语义相关性和层次上的从属关系形成社团结构,这种社团结构与文档篇目紧密相关,反映了具体知识(语义实体和关系)与概括性知识(层次实体与关系)之间的上下位关系,显著提升了网络的语义丰富性与层次性。
4 结论
目前,在知识工程研究与实践中,以三元组为基本单元构建的大规模知识库广泛应用于检索、推荐和问答等多个领域。然而,在处理复杂语义背景问题时,传统知识图谱表达能力不足的问题逐渐暴露,需要借助文档结构等异质数据来补足短板。
军事法律法规结构严谨,用语精炼而规范,句式句法较为复杂,具有丰富的语义,篇章之间普遍存在语义关联,使用通用的标注语义、构建知识图谱的方法,难以完整准确地表示其中的知识以及知识间的广泛联系。本文利用军事法律法规层次鲜明、语义逻辑与文档结构关系密切的特点,将文档结构融入元知识网络,设计了构建元知识网络的一般方法,提出了元知识要素抽取、元知识网络构建和语义相关度量的技术路线,所提流程和方法同样适用于与军事法律法规特征类似的其他文档。元知识网络引入了层次实体与层次关系,大量被知识图谱舍弃的实体得以保留,并通过层次和语义关联广泛链接形成复杂网络,更好地挖掘了文档中的信息。对比实验表明,针对同一文档集,元知识网络的规模和节点之间的关联程度都明显高于知识图谱。元知识网络包含的文档结构信息可对问题的答案形成完整解释,并明确其出处,可实现长、短答案共同输出,后续可与图推理模型等深度学习方法结合应用,从而更好地为指挥员提供军事决策辅助。