基于产品规范的本体建模方法研究
2024-06-10韩梦雪陈伟林段锐宁李小兰陈炫宇
韩梦雪 陈伟林 段锐宁 李小兰 陈炫宇
摘 要:为充分发挥产品规范在装备订购中的作用,辅助军队和军工集团对所订购产品的性能、功能、检验项目、检验方法等进行快速准确的检索和定位,本文针对产品规范类国家军用标准的数字化应用开展研究,结合知识本体理论方法,从标准文本维度和领域知识维度提出了适用于产品规范的本体模型,利用直升机燃油泵通用规范对本体模型进行了实例分析,构建了基于单份标准的知识图谱。结合航空领域知识百科等开源数据,对后续基于军用标准的领域知识应用场景进行了展望。
关键词:产品规范,本体,知识图谱
DOI编码:10.3969/j.issn.1002-5944.2024.09.003
0 引 言
目前,在标准数字转型的浪潮下,以纸制或PDF格式存储的产品规范已不再满足新型装备管理体制和作战模式的需要。《国家标准化发展纲要》[1]中强调:“发展机器可读标准、开源标准,推动标准化工作向数字化、网络化、智能化转型。”关于标准的数字化转型与建设,已有学者从标准的研制、应用、实施监督等维度提出了标准知识图谱的应用场景和通用技术做法[2-3]。知识图谱在标准对比应用中的研究相对较多,尤其是侧重于基于詞频的关键词对比[4]。随着2022年底大模型的出现,关于大模型与知识图谱技术在标准领域的融合成为研究的热点[5]。上述研究对标准数字化转型的理论研究偏多,如何结合标准特点进行技术实践落地尚需进一步研究与讨论。
产品规范是军用标准文件中的一类,主要用于服务军事装备的订购。产品规范既是标准化文件,也是领域知识的固化。利用知识图谱挖掘产品规范的关键知识的基础在于构建适用于核、兵器、电子、航天、航空、船舶等各专业的通用化本体模型。该模型既要反映标准的属性特征,也要反映标准承载的技术特征。因此,若想提高产品规范在当前装备采购、使用、维修、退役等阶段的作用,实现精准赋能,开发一种适用于各领域的本体建模方法显得尤为迫切。这既是产品规范数字化的当务之急,也是提高标准知识化服务的重要基础。
1 基于产品规范的本体构建特点
1.1 产品规范结构要素组成
产品规范是支持装备订购的一种基础性文件,可以直接或间接地适用于装备订购,作为订购方在招标书和合同中表述装备质量要求的载体,是保证装备质量的基石。产品规范的目的是确保订购对象的适用性,即确保订购对象在规定条件下满足规定用途。因此,为方便装备采购对象使用产品规范进行产品验收,产品规范在结构上相对固定,其典型构成要素及排序如表1所示。
通过产品规范结构要素的分析可知,关键的要素主要包括封面、要求、质量保证规定、交货准备四类,而每类要素承载的信息可大致概括如下:
(1)封面要素承载了产品规范文件的基本信息,主要包括标准编号、标准名称(中文和英文)、标准分类号、发布日期、实施日期、标准颁布部门。
(2)要求要素是根据订购对象的特点、任务目标、任务环境、约束条件等对其能力的规定,包括产品性能、环境适应性、保障性、可靠性、维修性、材料、理化性能、稳定性、设计与结构、测试性、互换性、电磁兼容性等。
(3)质量保证规定则是为验证订购对象是否在质量上满足“要求”的规定,承载了需要做的产品检验类型、检验项目和检验方法等。
(4)交货准备主要指订购对象的包装,包括防护、包装、装修和标志等信息。
1.2 产品规范的本体构建特点
(1)内容的规范性
产品规范作为一类权威的技术文件,其在文字表述的规范性上优于百科全书、词典、技术规格说明书、研究报告等文件,基于军用标准构建的本体更加规范。
(2)军事特色凸显性
产品规范大多聚焦于服务军事活动的物品、活动、技术等,具有很强的军事特色。
(3)标准知识本体的局限性
产品规范作为技术性文件,其军事特色强的特点导致其中的知识无法完全反映某领域的全部知识,如果仅从军用标准出发,那么难以构建出某专业领域的全部知识。例如船舶领域的产品规范大多规定了军方使用较多的舰船设备,而军民通用的设备大多以国家标准、行业标准甚至是企业标准的方式进行技术固化。
2 基于产品规范的本体建模
2.1 实体类型
依据产品规范的要素特征分析,本文将产品规范涉及的实体类型归纳为10个类型,情况如表2所示。其中,文件实体、标准实体、机构实体和人员实体是与标准技术内容无关,反映标准自身特征的实体;图实体、表实体、公式实体、产品实体、活动实体和指标实体则是体现领域知识的实体,也是基于产品规范构建领域知识本体的关键。
广义而言,标准是文件的一种类型。本文为强调标准实体的特殊性,将标准实体作为一个独立的实体类型进行存储,而文件实体则指除标准以外的其他实体来源文件类型。图实体、表实体和公式实体与标准中的文本共同组成了完整的标准要素。为抽取标准文本中承载的关键技术知识,本文规划了产品实体、活动实体和指标实体3类。
2.2 关系类型
关系是不同实体之间涉及的联系,产品规范主要涉及以下13个常用的关系类型,具体说明如表3所示。
2.3 实体属性
“属性”为一种特殊的关系类型,联结“实体”与“属性值”的关系,且对“属性值”封闭,即“属性值”不可再与其他“实体”或“属性值”存在关系,同时“属性值”不可脱离实体独立存在。产品规范常用的实体属性主要有9类,具体见表4。
2.4 实体与关系的匹配规则
在规定的实体类型和关系类型的基础上,将实体-关系-实体的三元组组合方式进行归纳总结,以此确定基于产品规范的本体模型架构,结果如表5所示。
3 本体的实例构建
3.1 产品规范的本体构建流程
产品规范的本体构建主要包括标准结构化、本体标注、本体校对、本体数据入库4个阶段,每个阶段的详细步骤如图1所示。
3.2 标准结构化
標准结构化是指将PDF或word文档格式的产品规范,转化成以XML格式存储的结构化文件,其中,标准编号、标准名称、发布日期、主办部门、主编单位等信息属于标准的题录数据,结构化程度较高;涉及产品技术要求的“正文”则以章条作为最小单元储存。
3.3 本体标注
标准的题录数据因结构化程度高,数据较为规范等特点,可依据第2章中的实体模型进行自动构建,涉及的实体类型和关系类型相对明确。关于题录数据构建的知识图谱如图2所示。
产品规范标注的重点在于具体的技术要求,包括标准化对象、标注章条标题、标注核心章条内容3个步骤。
标注标准化对象是指从标准名称中标注出标准化对象或标准化活动。以《直升机燃油泵通用规范》为例,标准化对象的标注结果如表6所示。
标注章条标题是指从标准的章条标题中对有价值的实体进行标注,并构建标题中实体与标准化对象的关系,章条标题的标注结果如表7所示。需要强调,产品规范的编写具有简洁性,相关的标题均是在整个标准化对象的范围下提出的技术要求。表7给出的“接口”实体不仅要标注出接口这一实体类型,还需要搭建出“接口”与整个标准化对象“直升机燃油泵”的“整体-部分关系”,以便将产品规范的要求完整地反映在知识图谱中。
标注章条内容是指从章条内容中抽取实体,并构建内容中实体与标准化对象、章条中实体的关系。章条内容的标注结果如表8所示。
通过上述步骤,构建的基于GJB 8075—2013《直升机燃油泵通用规范》的知识图谱如图3所示。
3.4 本体校对
本体校对主要包括实体融合和关系补全。前文提到,基于产品规范构建领域知识本体具有一定的局限性,实体标注后需要跳出标准视角,利用当前领域中已有的知识体系对产品规范构建的本体进行校对。这里以《航空百科》作为航空领域知识体系架构。直升机燃油泵在航空领域的知识体系中属于航空装备-航空机电系统-飞机燃油系统中的设备之一,其在航空装备知识体系中的位置如图4所示。
找出燃油泵在航空装备中的体系位置后,利用同名实体或同义实体的规则,对实体节点进行融合,进而实现基于标准构建的知识本体和领域知识本体的连接。如图5所示,虚线左侧是通过《直升机燃油泵》产品规范构建的本体,虚线右侧则是基于《航空百科》构建的“油泵”有关本体,利用“油泵”节点的融合和属种关系的搭建,使标准中的关键信息嵌入到领域知识内部,对领域知识本体进行了补充和细化。
3.5 本体数据入库
对校对后的本体数据及时入库,此步骤既是对某单一标准实体构建结果的阶段性打结,也是方便后续在本领域其他标准标注过程中,为同名实体提供参考,方便跨标准的实体融合及关系搭建。
4 结 语
基于产品规范的领域本体构建是从标准的视角构建了领域本体,该方法既体现了标准中的重要知识单元,也兼容了产品领域自身的知识体系。构建产品规范的知识图谱是军用标准数字化转型应用的一次探索。实现军用标准的准确服务、深度服务的下一步工作则是需要结合装备采购验收单位、军工产品生产厂商、军用产品销售单位、产品规范编写人员等各类用户需求,在产品指标问答推送、上下层级产品规范协调性、同类产品的性能对比等方面,利用本文构建的本体模型,提高检索推荐、问答等服务模式的精准度。
参考文献
[1]中共中央,国务院.国家标准化发展纲要[Z].
[2]李海平,齐卓砾,胡君朋.标准化领域知识图谱的构建和应用研究[J].中国标准化,2022(17):51-55.
[3]方思怡.标准知识图谱的技术路径与应用场景探讨[J].中国标准化,2023(11):49-55.
[4]张雪飞,韩冰,苏宏宇,等.标准比对知识图谱研究[J].中国标准化,2022(17):56-61+75.
[5]郑佳明,陈家宾,胡杰鑫,等.基于大模型和知识图谱的标准领域融合应用方法研究[J].中国标准化,2023(23):39-46.
作者简介
韩梦雪,博士研究生,工程师,研究方向为标准化原理。
陈伟林,硕士研究生,高级工程师,研究方向为信息技术领域标准化。
段锐宁,硕士研究生,研究员,研究方向为标准化原理。
李小兰,硕士研究生,工程师,研究方向为材料领域标准化。
陈炫宇,硕士研究生,研究方向为信息技术领域标准化。
(责任编辑:袁文静)