APP下载

煤矿标准文件知识图谱构建与应用

2024-01-29刘鹏曹新晨耿念魏微孟磊

情报工程 2023年5期
关键词:条文图谱要素

刘鹏 曹新晨 耿念 魏微 孟磊

1. 徐州高新区安全应急装备产业技术研究院 徐州 210000;

2. 矿山互联网应用技术国家地方联合工程实验室 徐州 221008;

3.中国矿业大学信息与控制工程学院 徐州 221116

引言

随着煤矿安全生产技术进步和国家政策推进,煤矿安全形势有所好转,但煤矿灾害仍处于高发态势,煤矿建设生产面临的安全隐患不容小觑[1]。煤矿标准文件作为煤矿生产管理者必须遵循的最低要求,是煤矿能够安全建设生产的保证,更是政府部门监管的依据。目前,煤矿标准文件的数据信息服务仍处于初级阶段,多数煤矿企业仍使用传统的纸质版、电子版标准文件,标准文件数据库以PDF、图片等形式存储,缺乏系统、高效的煤矿标准文件知识存储利用手段,不利于煤矿标准化、信息化发展。知识图谱是一种结构化的语义网络[2],用于描述真实世界的概念、实体及其相互关系[3]。知识图谱对知识单元及其间关系有良好的表达,提供了更好地组织管理海量信息的能力[4],在语义搜索、问答系统、智能推荐等应用广泛[5]。在煤矿领域,吴雪峰等[6]构建了煤矿巷道支护领域知识图谱,有利于实现巷道支护智能化管理;曹现刚等[7]构建了煤矿装备维护知识图谱,助力煤矿装备智能化动态管理;潘理虎等[8]结合本体技术构建了煤矿领域知识图谱,并开发了煤矿安全监测监控系统;李哲等[9]构建了煤矿机电设备事故知识图谱,可应用于煤矿机电设备事故诊断、风险管理。

现阶段研究人员已将知识图谱应用于煤矿领域,但由于煤矿标准文件的数量内容繁多、专业跨度大,对煤矿标准的智能化研究少有涉足。而在通用标准文件领域,张慧等[10]从标准文件的“前言”和“规范性引用文件”等共性要素入手,构建标准文献知识图谱。刘慧琳等[11]使用知识图谱的模式对标准文件进行语义组织,提供了一种标准文件的知识图谱组织模式。郝文建等[12]定义了标准文件基本要素和关键要素,分析了标准文件知识图谱构建方法。秦丽等[13]分析了食品安全国家标准中三元组类型,构建了食品安全国家标准图谱。赵伟等[14]解析了标准文件特点及结构,分析了标准文件的知识关联关系,构建了标准文件知识图谱RDM 模型。李臻等[15]提出了一种标准文件知识图谱构建流程,定义了标准要素实体和标准文件间关系,分析了标准文件知识图谱的应用场景。杨跃翔等[16]分析了标准文件的共性结构要素的概念和关系,构建本体层,将标准文件转换为XML 文档解析,构建标准文件知识图谱。总体上,标准文件知识图谱构建的相关研究主要针对标准文件数据中共性要素的解析,对于标准文件的核心技术内容主要采用按章节结构分解的方式,缺少对标准条文内容的深度挖掘。

本文在分析煤矿标准文件特点、内容和结构的基础上,创新性地建立了“标准文件-标准核心要素-标准条文”三层煤矿标准文件知识模型;然后根据每层数据的特点设计不同的知识抽取方案,利用图数据库存储煤矿标准知识,完成了煤矿标准文件图谱构建;最后探讨了煤矿标准文件知识图谱的应用价值。

1 煤矿标准文件

1.1 煤矿标准文件概念及特点

标准文件的定义是通过标准化活动,按照规定的程序经协商一致制定,为各种活动或其结果提供规则、指南或特性,供使用者共同使用或重复使用的文件。广义的标准文件是标准化活动相关的所有文献资料。本文中煤矿标准文件指与煤矿生产、建设、安全等相关的国家标准、行业标准及其分类资料、检索工具等。

标准文件的内容、形式及适用范围等方面具有与一般文本不同的特点,具体表现在:

(1)编排规范。标准文件具有特定的编排格式和起草规则,文本整齐规范。

(2)协调性。一个标准化对象尽可能集中在一个文件中,标准文件间避免重复和不必要的差异。

(3)时效性。标准文件是标准化对象的底线和门槛,随着经济的发展、科技水平的提高,标准文件会不断地修订、补充、替代或废止。

(4)准确性。标准文件是规范性文件,其内容需专业、确切、规范,不应有错误和缺失。

标准文件前两个特点使其能够利用知识图谱技术进行结构化重组,同时也由于标准文件图谱的时效性与准确性,图谱的构建方法必须易于更新存储,同时能满足标准文件图谱的准确性需求。

煤矿标准文件主要包括煤矿国家标准(GB)、煤炭行业标准(MT)、能源行业标准(NB)和煤矿安全标准(AQ),标准类别包括基础标准、产品标准、试验标准、方法标准、管理标准等类型,涉及煤炭资源、煤矿地质、煤矿生产、煤矿运输贮存、煤矿设备、煤矿安全等专业内容,种类繁多,内容复杂,难以归纳定义完整的有普适性的煤矿领域本体模型。因此,煤矿标准文件知识图谱构建需要从标准文件的共性要素入手,构建标准知识图谱本体框架,技术要素等差异化内容依附于本体框架各自建立概念。

1.2 煤矿标准文件结构分析

煤矿标准文件由标准要素组成,根据GB/T 1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》,依据要素的作用和位置,可将标准文件中的要素划分为规范性要素和资料性要素:规范性要素可划分为规范性一般要素和规范性技术要素;资料性要素可划分为资料性概述要素和资料性补充要素。标准要素的表述形式有条文、图、表、数学公式、示例、脚注、引用等。标准要素信息如表1 所示。

表1 标准要素信息

资料性要素是标准文件理解和使用的附加信息,其内容与格式相对统一、固定;规范性要素是界定文件范围或设定条款的要素,内容和格式相对繁多、复杂。以往的标准文件知识图谱的构建重点多在于对资料性要素和规范性一般要素的挖掘,而构建完整的煤矿标准文件知识图谱,数据内容须覆盖所有规范性要素。

标准层次依据文件内容的从属关系将标准内容划分为相对独立的单元,采用部分、章、条、段、列项和附录的形式。部分是针对一个标准对象的文件因需求或编制目的不同而编制成若干部分;章、条、段和列项是文件层次划分的单元,每一章均应有章标题,有下属层次的条应有条标题,层级之间逐级细分、层层嵌套。将标准层次标题作为煤矿标准规范性技术要素的层次实体建立层次概念,可保留标准的行文逻辑和标准条文的上下级关系。

标准条文是由条或段表述文件要素内容所使用的文字和文字符号,即标准正文内容,可划分为描述性条文和规定性条文。描述性条文是对标准化对象的描述,例如定义、分类、型号、方法等;规定性条文是标准化对象的具体规定,例如要求、规程、指标等。

2 煤矿标准文件知识建模

煤矿标准文件知识模型的构建关键是知识单元的划分。通用文档知识图谱[17]是对文本关键词及其关系的挖掘,只能反映文本的主题或提纲,造成的知识损失较大,而标准文件知识图谱的知识单元划分应尽量保证文件语义完整,知识单元的粒度应满足知识图谱检索与应用的需求。标准文件知识图谱中加入要素、条文等段落、句子的实例形式,同时对条文进行深度挖掘,表现全面完整的标准文件知识内容。根据标准文件的要素作用和编排层次的分析结果,本文创新性地解析煤矿标准文件知识图谱架构,将其划分为标准文件SD(Standard Documents)、标准核心要素SE(Core Elements of Standard)、标准条文SP(Standard Provisions)三个层次的知识单元,建立标准文件知识图谱D-E-P(Documents-Elements-Provisions,标准文件-标准核心要素-标准条文)知识模型。标准文件层与标准核心要素层、标准核心要素层与标准条文层之间为包含关系。煤矿标准文件知识图谱结构如图1 所示。

图1 煤矿标准文件知识图谱结构

(1)标准文件层

标准文件层以一个标准文件作为一个知识单元,包含标准文件的全部属性和标准文件间的关系。标准文件层知识单元定义为SD=(D,C,R,A), 其中D(Documents) 为标准文件实体;C(Concepts)为标准文件相关实体对象的集合,如人员、单位机构等;R(Relationships)为标准文件间关系,包括引用关系、替代关系等;A(Attributes)为标准文件自身属性,如标准分类、发布日期、归口信息、适用界限等。

标准的资料性要素和规范性一般要素中包含大量标准文件属性和标准文件间关系,标准文件层中主要概念、属性(关系)和所属要素如表2 所示。以GB 25974.1-2010《煤矿用液压支架 第1 部分:通用技术条件》(以下简称GB 25974.1-2010)为例,标准文件层实例如图2 所示。

图2 标准文件层实例

表2 标准文件层主要概念和属性(关系)

(2)标准核心要素层

标准核心要素层以一篇标准文件下的一个核心技术要素作为一个知识单元,定义为SE=(D,L,P,R),其中D(Documents)为标准文件实体,L(Levels)为标准层次实体,P(Provisions)为标准条文实体,按照标准的“章”层次进行划分,“章”层次下的“条”或“段”作为标准条文实体,“章标题”和“条标题”作为标准层次实体;R(Relationships)为实体间层次关系,包括上下位关系、继承关系等。标准核心要素知识单元中包含全部的标准层次实体、标准条文实体以及实体间的层次关系,保留了完整的核心要素知识和标准文件著者的原始逻辑。标准文件层次和实体如表3 所示。以GB 25974.1-2010 为例,标准核心要素层实例如图3 所示。

图3 标准核心要素层实例

表3 标准文件层次和实体

(3)标准条文层

标准条文层以一个标准条文句作为一个知识单元,对条文的标准化对象与标准化内容进行深度挖掘。标准条文层知识单元定义为SP=(P,V,S,R,A),其中,P(Provisions)为标准条文实体,按照标准条文内容可分为描述型条文实体和规定型条文实体;S(Subject)为标准条文主体,即该标准条文的标准化对象;V(Value)为标准条文值,即该标准条文的标准化内容;R(Relationships)为标准条文关系,即标准条文主体与标准条文值间的关系,如表4 所示;A(Attributes)为标准条文属性,包括条文类型、所属要素层次等。

表4 标准条文层关系模式

其中描述型条文包含描述主体和描述值,规定型条文包含规定主体和规定值。如GB 25974.1—2010 中,条文“支架powered support以液压为动力实现升降、前移等运动,进行顶板支护的设备”为描述型条文,包含的三元组为:(支架)-(英文名)->(powered support)、(支架)-(定义)->(以液压为动力实现升降、前移等运动,进行顶板支护的设备);条文“支架内的行人通道的宽度应不小于0.6m,高度应不小于0.4m”为规定型条文,包含的三元组为:(支架内的行人通道的宽度)-(范围)->(不小于0.6m)、(支架内的行人通道的高度)-(范围)->(不小于0.4m)。标准条文层实例如图4 所示。

图4 标准条文层实例

3 煤矿标准文件知识图谱构建

3.1 知识抽取

知识抽取是指从多种数据源中提取知识并存入知识图谱,是知识图谱构建的基础[18]。煤矿标准文件的数据源包括半结构化数据、非结构化数据,针对标准文件模式层数据的特点采用不同的抽取方式可提高抽取效率,煤矿标准文件知识抽取流程如图5 所示。

图5 煤矿标准文件知识抽取流程

(1)数据预处理。在国家标准文件公开、行业标准信息服务等网站获取煤矿相关标准文件数据,并根据知识单元定义对数据进行划分。

(2)半结构化数据抽取。标准文件层数据的结构规范书写逻辑严谨,标准核心要素层数据具有严格的层次编号,均可视为半结构化数据。在分析文件层各属性关系和标准核心要素结构位置信息的基础上,采用基于规则模板的抽取方法,构建标准文件层抽取规则,获取标准文件层知识及标准核心要素层知识。

(3)非结构化数据抽取。标准条文层数据多为文本数据,没有固定的特征,是非结构化数据,构建规则模板成本高且泛用性低。因此,采用基于深度学习的方法进行抽取:将标准条文数据输入到BERT-BiLSTM-CRF 模型中,利用Bert 模型构成的字嵌入层将字转为词向量,利用BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)层提取序列特征,利用CRF(Conditional Random Field,条件随机场)层预测标签,得到标准条文层知识。

(4)数据整合。对各层知识单元数据抽取结果进行整理,整合为CSV 表格形式。为保证抽取数据的准确性,抽取完成后的结果需人工对抽取结果进行审查校正,以满足标准文件的准确性需求。

3.2 知识存储

知识图谱存储主要采用关系型数据库、RDF(Resource Description Framework,资源描述框架)和图数据库方式实现[19]。关系型数据库需要大量表连接实现实体关系表示,运算开销大;RDF 三元组需事先制定特定领域RDF 词汇表,且需借助特定RDF 工具实现管理。而图数据库使用节点和边表示实体关系,且利用内置管理工具实现灵活、高效的存储和查询。因此,煤矿标准文件知识图谱选用Neo4j 图数据库存储方案,其中标签对应标准文件图谱知识模型分层,节点及其属性对应实体及其属性,边对应实体间关系,存储方案如表5 所示。

表5 煤矿标准文件知识图谱存储方案

图数据库操作可利用Neo4j 查询语言Cypher 实现。本文使用Python 中py2neo 库执行Cypher 语句实现数据库增删改查操作,常用语句包括:Node、Relationship 类创建节点及关系;find、match 语句查询节点或关系;push 语句更新节点;run 语句执行Cypher 语句等。

将获取的标准文件各层知识单元数据存储到Neo4j 数据库后,形成的煤矿标准文件知识图谱共包含节点16257 个,关系22581 条。图谱数据统计信息如表6 所示。

表6 煤矿标准文件知识图谱统计信息

3.3 图谱构建效果评估

我们已组织专业人士,针对煤矿标准知识图谱数据进行了均匀随机采样检测,对图谱质量进行了总体评估,并进行了针对性的修改优化,基本保证了图谱的专业性和准确性。需要指出的是,从业界目前研究现状看,图谱质量评估方法和指标体系尚处于研究初期,缺乏行之有效的手段,实践可行性比较低。而且煤矿标准图谱构建是个复杂的系统工程,目前整体系统还在完善中,后续随着研究工作进展,我们将不定期邀请领域专家,从专业性、严谨性、易用性等角度对图谱进行持续质量评估。

4 煤矿标准文件图谱特点与应用

4.1 图谱特点

本文研究的煤矿标准文件知识图谱,以煤矿标准文件为切入点进行知识建模,创新性地提出并构建了“标准文件-标准核心要素-标准条文”三层知识单元模型,与其他知识图谱对比特点如表7 所示。

表7 知识图谱对比

4.2 图谱应用

基于标准文件知识模型构建的煤矿标准文件知识图谱可以为标准制定、检索、阅读等提供标准文件、标准核心要素、标准条文三种粒度知识单元的知识服务,有利于标准的推广应用。利用知识图谱相关技术开发的煤矿标准文件知识图谱应用平台可实现标准可视化、智能检索问答、标准信息服务等应用。

(1)标准可视化

传统的标准文件数据库以PDF 图片或标准全文方式存储标准,煤矿从业者在阅读多篇标准文件时难以找到所需的核心内容,阅读过程中难以实现文档间的自由切换。标准文件知识图谱可视化可利用多种可视形式为用户提供更好的阅读体验。通过标准文件知识图谱展示可以直接体现各标准知识单元间的关系;利用数据分析方法将知识图谱内容以柱状图、饼状图等图表的形式展现出来,有助于标准数据统计研究;利用智能图书馆的文档表现形式可以全面系统地展示标准文件知识,使用超链接跳转查阅方式实现用户的自由探索。标准可视化效果如图6 所示。

图6 煤矿标准图谱可视化效果

(2)智能检索问答

现阶段标准文件检索系统多数只能实现对标准名称、标准编号的简单检索,搜索过程和结果中缺少标准文件内部信息,致使煤矿从业者难以快速、准确地定位所需标准文件,耗费时间精力研读标准全文寻找所需信息。借助标准文件知识图谱开发的智能检索问答系统可以为用户提供多级的、深层次的检索方式,利用智能问答技术理解用户检索语义和意图,提供自然语言问答交互功能。智能检索问答应用流程如图7 所示。

图7 智能检索问答应用流程图

(3)标准信息服务

利用标准文件知识图谱重组标准文件后,可为煤矿标准化活动提供多种标准信息服务。条文内容的细粒度抽取可将多次出现的关键知识共享重用,发掘标准文件的公共性和一致性,同时能对现有标准内容进行冲突性检测;利用高质量标准形成标准文件模板辅助标准文件编写,为标准编写者提供涉及标准相关信息参考,保证标准的准确性;利用自然语言处理技术实现实际指标与标准文件图谱内容比对,辅助煤矿标准实施监督检查、达标检测、指标评价等活动,提高监督人员效率,指标比对流程如图8 所示,指标比对效果如图9 所示。

图8 指标比对流程

5 结语

本文在解析标准文件要素、层次和条文的特点的基础上,创新性地提出并构建了包含标准文件、标准核心要素和标准条文的三层知识单元模型,将标准文件知识进行重组,保留了标准要素内容的层次逻辑和复杂语义,对标准条文知识进行了细粒度挖掘;依据标准文件知识模型,通过规则模板和深度学习方法对不同类型数据进行了知识抽取,存储到Neo4j 图数据库中,完成煤矿标准文件知识图谱构建;探讨了煤矿标准文件知识图谱的应用价值,为煤矿标准化、数字化发展提供了可借鉴思路。后续笔者计划在煤矿标准文件知识图谱内容的融合更新及深度应用方向开展更进一步研究。

猜你喜欢

条文图谱要素
《中华人民共和国安全生产法》有关条文修正前后对照表(七)
桂苓味甘汤及加减方证条文辨析
绘一张成长图谱
掌握这6点要素,让肥水更高效
对《机车信号信息定义及分配》条文修改的分析
观赏植物的色彩要素在家居设计中的应用
论美术中“七大要素”的辩证关系
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
也谈做人的要素