APP下载

工程机械维修保养知识图谱建模研究

2020-08-15董登奎曾拥华

现代信息科技 2020年7期
关键词:自然语言处理知识体系知识图谱

董登奎 曾拥华

摘  要:针对工程机械维修保养知识图谱建模人工建模成本高、难度大且覆盖度难以保证等问题,提出基于自顶向下和自底向上相结合的知识图谱建模方法。首先,人工定义构建工程机械维修保养知识图谱的顶层数据模式;然后,利用知识抽取技术从文本数据中抽取实体、属性、关系知识;最后对自顶向下方法的结果与自底向上方法的结果进行合并融合。实验验证表明,该文所提出的知识建模方法可以大大降低人工建模的难度,同时具备较好的覆盖度和准确性,可以满足工程机械维修保养知识图譜构建与应用的需求。

关键词:知识体系;动态本体;工程机械维修保养;知识图谱;自然语言处理

中图分类号:TP391       文献标识码:A 文章编号:2096-4706(2020)07-0011-04

Research on the Knowledge Map Modeling of Construction Machinery Maintenance

DONG Dengkui,ZENG Yonghua

(Army Engineering University,Nanjing  210007,China)

Abstract:Aiming at the problems of high cost,difficulty and difficulty in guaranteeing the construction of knowledge graph modeling for construction machinery maintenance knowledge,a knowledge graph modeling method based on the combination of top-down and bottom-up is proposed. First,manually define the top-level data model for constructing the knowledge map of maintenance and repair of construction machinery;then,use knowledge extraction techniques to extract entity,attribute,and relationship knowledge from the text data;finally,the results of top-down method and bottom-up method are merged. Experimental verification shows that the knowledge modeling method proposed in this article can greatly reduce the difficulty of manual modeling,and has good coverage and accuracy,which can meet the needs of construction machinery maintenance knowledge graph construction and application.

Keywords:knowledge system;dynamic ontology;maintenance of construction machinery;knowledge graph;natural language processing

0  引  言

在工程机械维修保养领域,由于机械使用强度大、工程机械种类繁多、功能多样、结构复杂和损伤率较高等问题,对工程机械维修保养的时效性、维修保养率、零部件备换提出更高的要求。同时,对维修保养人员对系统原理和机械使用的熟练度、故障检测和维护保养方法知识也提出更高的掌握要求。海量的机械维修保养数据蕴含着上述问题的实践知识,具有极高的使用价值和参考意义。然而,目前这些知识仍然以数据孤岛的形式存在于各类存储介质中,维修保养人员难以从中提取出数据关联进行更精准的维修保养判断。这些数据缺乏统一的知识体系描述、有效的组织结构和直观形象的使用方式,难以进行深层次的数据关联挖掘和应用。

1  工程机械维修保养知识图谱建模

知识图谱(Knowledge Graph)由谷歌在2012年率先提出[1],并将其应用于提高搜索引擎的性能,提高搜索质量。旨在借助信息处理技术,结合语义网、本体论、自然语言处理从海量文本中抽取实体、属性以及关系等知识。知识图谱包括面向通用领域和面向垂直领域的知识图谱,分别被称为通用知识图谱和行业知识图谱。

知识图谱构建的第一步是为知识图谱进行建模,知识图谱建模的主要工作是为其构建本体。本体构建通常有三种构建方式:人工构建方式、自动构建方式和半自动构建方式。工程机械维修保养领域是专业程度非常高的领域[2],领域专家也通常仅精通其中的部分子领域,因此,建立完整的领域知识图谱数据模式需要各子领域的专家一起协作才能完成;协作建模需要能够支撑同步在线协作的工具平台。另一方面,人工定义的数据模式很难实时进行更新。笔者针对工程机械维修保养领域知识图谱建模存在的如上问题,提出自顶向下与向底向上相结合的知识建模方法。首先,通过工程机械维修保养领域本身特性以及专家经验进行顶层知识数据模式构建,提供了一款能够多人在线协作的平台工具;然后,在实体识别、属性抽取等技术进行领域知识抽取的基础上,通过概念规约、属性规约得到领域的概念、属性和关系,接着通过上下位学习对概念进行组织;最终通过把自底向上方法的结果和自顶向下定义的知识体系相结合,形成完整的工程机械维修保养知识图谱数据模式。

2  工程机械维修保养知识图谱建模方法

本节主要对基于动态的双向知识建模方法展开描述。首先,介绍工程机械维修保养知识图谱建模的整体流程,然后分别介绍自顶向下知识建模方法和自底向上知识建模方法,最后对两种方法的结果进行融合形成完整的工程机械维修保养知识图谱数据模式。

2.1  知识图谱建模整体架构

笔者结合维修保养工程机械数据特性以及应用场景,提出一种基于自顶向下方法与自底向上结合的知识建模的方法对工程机械维修保养知识体系进行构建,构建流程如图1所示。首先通过工程机械维修保养数据总结部分概念特性,然后结合专家经验对部分概念进行进一步加工整合,形成以概念定义、属性定义和上下位定义构成的概念分类体系,形成顶层知识体系。然后,获取海量的工程机械维修保养文本,采用术语抽取、同义抽取、概念学习和概念规约、属性规约等方法形成自底向上的概念及其属性集合,然后进一步通过上下位学习,得到自底向上的概念分类体系。自底向上方法是对自顶向下方法的补充和完善。

2.2  自顶向下知识建模方法与工具

自顶向下的方法是指根据专家经验自顶向下进行数据模式的定义,包含概念定义、概念上下位关系定义、概念数值属性定义、概念对象属性(关系)定义。

本文设计实现的知识图谱协作编辑与学习平台命名为KGELP(Knowledge Graph Edit and Learning Platform),其基本的功能如图2~图5所示;与现有的本体编辑工具相比,它具备如下优势:

(1)提供在线编辑功能,能够支持大规模的用户并發编辑,提供对并发编辑情形下的数据一致性和数据完整性保证。

(2)能够与后台的自动知识学习引擎结合,通过为知识图谱学习算法定义配置文件以启动知识自动学习过程,然后在自动学习的基础上进行知识图谱的编辑,避免了从头开始构建知识图谱,极大程度地减少了人工工作量。

(3)提供可视化编辑功能,用户可以通过所见即所得的方式进行编辑。

2.3  自底向上知识建模方法

自底向上知识建模方法主要是基于数据的特性从数据层出发向上规约合并,首先从大量的中规约得到概念,然后进行概念之前的上下位关系学习,最后从实体的属性信息中规约得到概念的属性。

2.3.1  概念规约

作为概念的术语一般需要具备三个要素:内涵性、外延性和词汇共现性。概念可以通过两种方式规约得到:首先,概念可以通过对所有的术语进行统计归类,抽取出共性的术语部分,结合语法的相关性,得到概念集合;第二种方法为从实体中进行规约,其主要过程为对实体依据其属性进行聚类统计分析,此方法会把实体按照那些具备区分性的属性进行聚集,这些聚集在一起的实体通常即形成一个新的概念;例如,假设一开始定义了概念“故障”,所有的具体故障案例都是此概念的实体,这些实体有一个属性“故障类型”,属性的值为可枚举的且通常每种值有一定数量的实体,这时算法通常会按“故障的类型”规约得到概念“故障”的子概念。

2.3.2  上下位关系抽取

本文通过一种基于机器学习的方法来学习概念之间的上下位关系。以机器学习的方法使用远距离监督学习的思想为基础,基于现有的上下位关系生成训练所需要的语料然后进行迭代式机器学习。其基本步骤如下:

(1)候选实体的选取:在知识图谱中已经确定的实体中,除去那些已经被确定为同义关系中所包含的实体,其他的实体均作为候选实体。同时,也选取“基本名词短语”作为候选实体。

(2)建模过程:在上下位关系抽取中,处理的目标为中文句子,其中可观测的序列X是中文词语或词性的序列,隐含状态序列Y则是本文所定义的用于标记实体、同义关系和其他词或词性的符号。本文假设Y是满足一阶马尔可夫假设的,因此,可以把此问题建模成一个序列标注问题;本文所使用的模型为BiLSTM+CRF。

(3)自监督方式训练模型:训练语料中正例和负例的选取也是使用已经抽取的上下位关系和一些模式无关的通用规则。正例的选取规则非常简单,即候选句子中满足距离要求的实体之间具备上下位关系。所使用的确定负例的启发式规则样例下两个实体是同义关系、两个实体不属于同样的类别。

2.3.3  属性规约

属性规约的目标为从已经获得的实体的属性中找到那些频繁出现的属性把它从实体属性升级成为概念属性,从而丰富知识图谱的模式。在规约过程中,主要需要考虑的是概念的可靠性,因为一旦规约成概念属性将影响后续所有属于该概念的实体,仍然需要考虑不可靠的情形。规约的基本依据为,当概念的实体拥有的某一属性达到一定的比例(如40%)时,此属性会作为概念属性的候选;接下来对属性值进行分析,如果其类型也基本一致,则把此属性规约成概念属性。

3  实验

通过平台对收集到的工程机械维修保养相关资料进行知识抽取,自动识别和抽取文本中的概念、实例和关系,然后与自顶向下建模结果相结合,得到工程机械维修保养知识图谱数据模式结果示例如图6所示。最终得到的结果统计如表1所示。

4  结  论

本文提出一种数据驱动的工程机械维修保养知识图谱建模方法,解决本领域专业性强、覆盖面广导致难以完全通过专家自顶向下进行知识图谱建模的问题。为方便多专家同步协作建模的问题,提出了一款名为KGELP的工程机械维修保养知识图谱协作建模平台,通过满足多专家在线同步建模。同时提出了从数据中通过概念规约、上下位关系学习、属性规约的方法自动学习得到概念、概念之间的上下位关系以及概念的属性。提出的工具和方法能够大幅提升工程机械维修保养领域知识图谱建模的效率。

下一步工作将对自底向上知识建模中涉及到自然语言处理的知识抽取与概念抽取进行进一步研究,并扩展到自动化的知识抽取过程中,从而完成工程机械维修保养行业知识图谱的完整构建流程。

参考文献:

[1] AMIT S. Introducing the knowledge graph [R].America:Official Blog of Google,2012.

[2] 车金立,唐力伟,邓士杰,等.装备维修保障知识图谱构建方法研究 [J].兵工自动化,2019,38(1):15-19.

作者简介:董登奎(1987.06—),男,汉族,安徽滁州人,硕士在读,研究方向:工程机械维修保养。

猜你喜欢

自然语言处理知识体系知识图谱
基于组合分类算法的源代码注释质量评估方法
CS2013指导下的程序设计课程实践教学实施方案设计与翻转实验教学实践
构建知识体系的专题课程教学改革实践和探索
智能信息处理实验课程建设
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
面向机器人导航的汉语路径自然语言组块分析方法研究
数学支架式教学模式的探索