APP下载

基于检索和知识图谱的军事法规问答系统*

2023-12-06刘奕明谢振杰徐瑞麟

指挥控制与仿真 2023年6期
关键词:分词条款法规

刘奕明,谢振杰,付 伟,徐瑞麟

(1. 海军工程大学电子工程学院,湖北 武汉 430033;2. 中国人民解放军92330部队,山东 青岛 266000;3. 海军工程大学信息安全系,湖北 武汉 430033;4. 中国人民解放军78156部队,重庆 400039;5. 中国人民解放军91001部队,北京 100036)

随着人类社会迈入信息化、智能化时代,战争和军事行动面貌随之发生深刻演变,尤其是舆论战、心理战和法律战等认知领域作战样式的兴起,对指挥信息系统的综合信息服务能力提出了更高要求。军事法规作为指导战场行动的法理依据,重要性不可忽视,特别是在认知作战领域,其作用早已从幕后走向前台。指挥员做出决策需要详细的法规支持,每一步都应做到有据可查。然而,在信息化条件下,人工查阅文本的传统方式显然已经跟不上战争节奏,难以满足战场决策需要。因此,构建准确、高效、灵活、智能的军事法规问答系统,具有广阔的应用前景。

目前,法规问答可归纳为七类,分别是判断类、多选项类、检索类、大数据类、本体类、神经网络类与其他方法[1]。基于信息检索(Information Retrieval,IR)的法规问答首先定位包含相关信息的段落,再确定具体答案。文献[2]引入了一种词汇至篇章级的语料库建模方法。文献[3]基于条件随机场统计建模来分割和标记序列数据。文献[4]使用网络分析与可视化的方法来处理荷兰判例法。文献[5-6]研究在目标文档中需推理才能获得答案的问题。文献[7]侧重于包含答案的相关小节的检索。文献[8-10]尝试利用深度学习技术构建法律问答系统。文献[11-16]体现了知识图谱(Knowledge Graph,KG)技术在军事领域的运用,但目前尚未见可用于问答的军事法规开源图谱。

信息检索技术可根据关键词迅速找到相关法规和条款,但难以直接给出问题答案,需要人工阅读条款。知识图谱问答的效果依赖图谱的规模和质量,工作量较大,且答案缺乏来源信息和可解释性。因此,单独采用检索或知识图谱技术构建的问答系统均不能契合军事辅助决策的需求。本文综合运用以上两种技术构建军事法规问答系统,先将问题定位到最相关的法规条款,再通过匹配语义关系得出短答案,以条款完整内容和层次脉络作为补充,融合两种技术的优势。本文将阐述实现军事法规问答的主要过程和关键技术,分析其底层数据结构的拓扑性质,并通过测试验证问答效果。

1 军事法规文本预处理

进行问答前,首先要对纯文本形式的军事法规进行预处理,生成便于计算机理解和检索的数据结构。预处理过程包含法规标题识别、生成条款检索树和语义关系标注三个阶段。

1.1 法规标题识别

军事法规篇章结构严谨、层次鲜明,各级标题对所属内容的概括凝练而准确,将法规文本以条款为单位进行分割,对于信息检索十分重要。军事法规的标题结构具有很强的规律性,通常一级标题为“第X章”、二级标题为“第X节”、三级标题为“第X条”。由高级编程语言不难实现对各级标题的识别与定位,具体不再赘述。

1.2 生成条款检索树

在标题识别的基础上,为快速定位与问题最相关的条款,根据军事法规特点对经典的TF-IDF算法进行调整,分以下三个步骤生成条款检索树。军事法规检索树模型如图1所示。

图1 军事法规检索树模型Fig.1 Retrieval tree model of military regulations

1)构建分词计数器

分词计数器是一种数据结构,用于保存一段文字中各分词的词频(Term Frequency,TF)。本问答系统的各级目录层级均具备上级标题计数器Cup、本级标题计数器Cnow和正文计数器Ctext。将本级标题与上级标题分别计数,是因为本级标题与本级内容相关性最强,权重更高。在正文或上级标题中,分词出现频率越高并不代表它与该条款的相关性越强。例如,队列条令第二十条“步法变换”正文中“齐步”一词出现8次,而第十八条“行进(一)齐步”正文中“齐步”仅出现2次,若以传统意义上的词频计数,则会将“齐步”引向非期望条款。因此,本文的TF值已不单指分词频率,Cup和Ctext只统计分词出现与否(值为0或1),Cnow中的值表示各分词占总词数的比率。

求分词a在某层级的TF值,即按下式计算3个分词计数器相应值的加权和:

TF[a]=Cup[a]×Wup+Cnow[a]×
Wnow+Ctext[a]×Wtext

(1)

式(1)中,Wup、Wnow和Wtext表示各分词计数器的权重。

2)分词计数器更新

为使各层级的分词计数器准确反映分词与所属内容的最强相关性,每构建完一个条款的分词计数器后,Cnow和Ctext要分别自下而上逐级更新至表示整部法规的顶部层级。相邻两层级间的更新方法如下:对于本级计数器包含的全部分词,取本级计数器和上级计数器中的最大值更新上级计数器,即

C′[a]=max(C′[a],C[a]),a∈Σ

(2)

式(2)中,C表示本级的Cnow或Ctext,C′表示上级的Cnow或Ctext,Σ表示C中记录的全部分词集合。例如,队列条令第十四条标题是“立正”,则第十四条的Cnow中分词“立正”的TF值为1(最大值),因此第十四条所在的第四章的Cnow、队列条令的Cnow中“立正”的TF值都更新为1,便于自上而下逐层找到与“立正”最相关的条款(队列条令—第四章—第十四条)。

本文分词计数器的设置与TF-IDF经典模型有所区别,是经反复实践优化形成的,更贴合军事法规特性。

3)计算分词IDF

分词的重要性取决于对定位条款提供的信息量。本文以末端层级(对于军事法规而言通常是“条”)为基本单元,计算各分词的逆文本频率(Inverse Document Frequency,IDF)值,作为其全局重要性的度量,公式如下:

(3)

式(3)中,N表示系统内全部法规的条款总数,Na表示包含分词a的条款数。

求词组V与某层级的TF-IDF值,即将V中各分词与该层级的TF-IDF值累加,公式如下:

TF·IDF[V]=∑a∈VTF[a]×IDF[a]

(4)

通过以上步骤构建条款检索树,将抽象的相关性度量问题转化为分词词组与各层级TF-IDF值的计算问题,方便计算机快速求解。

1.3 语义关系标注

为了向简单问题提供简明扼要的短答案,需利用知识图谱技术对法规条款进行语义关系标注,生成大量知识“三元组”,知识的规模和质量将直接影响问题理解能力与解答质量。主要有3种标注方式:一是人工标注,较为详细准确,但费时费力;二是自动标注,可批量处理句式固定的条款,但需逐一编写程序;三是从题库提取简洁的题目进行转换,但受限于题库规模。具体标注方法限于篇幅,不展开描述。

2 军事法规问答

军事法规文本预处理为问答准备了必要的数据结构,下面描述从提问到回答的处理过程,并简述辅助答题模块。问答系统实现的完整流程如图2所示。

图2 军事法规问答系统实现流程Fig.2 Implementation process of military legal question answering system

2.1 问句处理

回答问题的前提是将自然语言形式的问句处理成可被计算机理解的数据,包含疑问词替换、指定搜索范围和分词三个步骤。

1)疑问词替换

自然语言中的疑问词对于检索是无用的,应在准确理解提问者意图后将其去除。本系统通过枚举常见的提问方式来理解意图,对部分字词进行近义替换可减少枚举数量,如表1所示。

表1 问句字词替换

例如,“X包含哪些条目”“X含有什么条款”“X包括哪些章节”都会替换成“X有什么内容”,只要识别后者,就能理解类似的一系列提法。

2)指定搜索范围

对于“X法规对Y有何规定”“X法规附则有哪几条”之类的提问,应在提问者指定的范围内搜索,将范围限定词代表的层级作为初始搜索节点。如果未指定范围,则从包含所有法规的根节点开始搜索。

3)问句分词

除去开头的范围限定词和末尾的疑问词后,对问句其余部分进行分词,由实词构成问句词组。《军语》词汇、人工标注的军事用语等可增强通用分词工具在军事法规领域的分词效果。

2.2 答案组织

问句处理明确了搜索范围和问句词组,在此基础上通过检索相关条款、匹配语义关系和输出答案三个步骤,完成一次问答。

1)检索相关条款

首先,以问句词组和代表搜索范围的初始搜索节点为输入,运行条款检索算法。

算法1 条款检索算法

输出的答案列表即为相关度最高的条款集合。若答案列表为空,则表示找不到相关条款。

2)匹配语义关系

预处理过程中的语义关系标注为各条款添加了若干知识三元组,如果问句匹配了答案条款所包含的三元组,则给出短答案。例如,询问“齐步的行进速度”,检索到最相关的条款为队列条令第十八条,该条款包含三元组“(齐步,速度,每分钟116-122步)”,则将“每分钟116-122步”作为短答案。

3)输出答案

虽然短答案提供了关键信息,但询问者可能还想了解更详细的信息。此外,仍有大量知识难以用三元组表述,很多问题也不能用短答案解答。因此,还需要答案来源和条款全文作为补充,以增强说服力和准确性。上例中,将“每分钟116-122步”作为短答案,将完整的层次脉络“队列条令-第四章 单个军人的队列动作-第十八条 行进-(一)齐步”作为答案来源,并将“齐步”的完整内容作为长答案一并输出。

此外,知识图谱除了难以解决找不到语义关系的问题,也不适合回答例如“XX法规包含哪些章节”“XX法规第十条的完整内容”等询问章节条款的问题,而本系统建立了完善的目录层级,便于回答此类问题。

2.3 辅助答题

利用条款检索和语义匹配能力实现答题模块,能尝试解答判断题、单选题、多选题和填空题。该功能可用于辅助军事法规学习和测试,也可用于从题库添加语义关系。实现方法如下:

1)将题干视为问题,检索到最相关的法规条款;

2)对于单选题、多选题和填空题,尝试通过匹配语义关系得出答案;

3)对于判断题或无法匹配语义关系的情况,采用字符串匹配确定答案;

4)对于仍不能确定答案的单选题和多选题,将各选项分别与题干所在条款计算TF-IDF值,取相关性强的选项为答案。

3 分析与测试

利用Python编程实现包含中国人民解放军内务条令、队列条令和纪律条令三部法规[17]的军事法规问答原型系统。本节首先对其底层数据结构的拓扑性质进行分析,再进行问答测试,最后与其他技术路线的问答系统展开对比分析。

3.1 拓扑性质分析

军事法规预处理所生成的数据结构主要是各级标题和语义实体,以及从属关系和语义关系。语义实体和语义关系可视为知识图谱技术生成的结果,而本系统将各级标题及从属关系纳入拓扑网络,将一些原本孤立的语义实体建立层次上的联系,极大丰富了实体之间的关联程度。图3显示了本系统数据的分层拓扑结构。

图3 分层拓扑结构Fig.3 Hierarchical topology

图3中相邻的叶节点(语义实体)之间即使没有标注语义关系,也因其属于同一上级节点而具备了相关性。

本系统纯语义数据和完整数据的基本拓扑性质对比如表2所示,图4直观显示了二者实体和关系的丰富程度差异。

表2 纯语义数据和完整数据的拓扑性质Tab.2 Topological properties of pure semantic data and complete data

图4 纯语义数据和完整数据的全局视图Fig.4 Global views of pure semantic data and complete data

表2数据中,知识图谱技术产生的纯语义数据不包含标题层次要素,且舍弃“孤立”的语义实体,故节点和边的数量明显减少;平均度降低表明节点之间的联系减少;平均聚类系数为0,反映其内部节点较为孤立,没有聚集成环状结构。

因此,对于本文涉及的军事法规文档集合,纯语义信息失真较为严重,可见传统知识图谱技术并不直接适用于结构严谨、语言精练、语义丰富且篇章之间存在复杂关联的军事法规。而本系统通过引入标题层次作为框架,显著改善了链接松散、关系稀疏、层次弱化等问题,大量无法以三元组形式存在的语义实体通过从属关系得以保留,提升了知识网络的语义丰富性与层次性,知识密度显著增加,为问答等功能实现提供了更完善的底层数据支撑。

3.2 问答测试

通过多角度提问测试,验证系统的问答能力,具有代表性的问答情况如表3所示。

表3 问答测试

表3中的前两项询问队列动作要领,系统准确检索到队列条令中最相关的条款,并给出层级脉络,第2问通过匹配语义关系得到短答案。后两项询问章节条款本身,答案涵盖多个条款,第4问是模糊问题,涉及系统内所有法规。系统对以上4个问题均能给出合适的回答。

3.3 对比分析

本系统综合运用了检索和知识图谱技术,如果仅使用通用模型分词,不匹配语义关系,则演变为基于检索的问答系统;将所有条款的三元组合并,仅通过匹配语义关系找短答案,则是基于知识图谱的问答系统。表4展示了三种问答系统多维度比较的结果。

表4 采用不同技术路线的问答系统对比Tab.4 Comparison of question answering systems using different technologies

知识图谱的优势在于能够通过匹配语义关系得出短答案,且人工标注的军事用语有利于提高分词准确性;检索技术的优势在于支持答案溯源、可显示完整条款、支持询问章节条款、能回应难以提炼语义关系的复杂问题,且答案搜索速度快。检索技术还有一个显著优势,即可对新法规自动进行入库处理;而知识图谱的问答能力取决于三元组的数量和质量,需要人工参与;本系统添加新法规时,先通过自动预处理形成条款检索能力,再按需补充三元组提升匹配短答案的能力。此外,当问题涉及描述近似而含义不同的条款时,由于三元组缺乏上下文信息,导致知识图谱问答难以区分正确答案,而本系统则会罗列所有相关条款供询问者自行判断。

综上,本文所述的军事法规问答系统融合了检索和知识图谱技术的优势,准确性和适用范围均优于单独运用以上两种技术的问答系统。

4 结束语

本文设计了更贴合军事法规特性的问答系统实现流程,重点描述改进TF-IDF模型生成条款检索树、条款检索算法等关键技术。分析和测试表明,本系统能够准确回答多角度提问,验证了所述技术框架、实现流程和具体算法的有效性,融合了检索和知识图谱技术的优势。本系统的适用范围不局限于军事法规,其他领域具有严格层级结构的法律法规等文件也可录入本系统形成问答能力。原型系统的Python代码已在码云平台开源,详见https://gitee.com/basddsa/hgfgqa。

猜你喜欢

分词条款法规
性侵未成年人新修订若干争议条款的理解与适用
分词在英语教学中的妙用
正确审视“纽约假期”条款
结巴分词在词云中的应用
结巴分词在词云中的应用
On Knock-for-Knock Principle:Analysis of SUPPLYTIME 2017 Clause 14(a)
千奇百怪的法规
千奇百怪的法规
千奇百怪的法规
制定一般反滥用条款:达成平衡