APP下载

电子信息装备情报知识图谱构建方法研究

2023-10-20燕明亮霍江涛李子时

现代计算机 2023年15期
关键词:电子信息情报本体

姜 芳,燕明亮,霍江涛,李子时

(中国人民解放军63891部队,洛阳 471003)

0 引言

在情报学的概念中,情报是可传递的知识,它既具有传递性,又具有效用性,还具有一定的知识性。正是由于这些情报的特性,使得不同来源的情报之间存在着某种联系[1]。通过分析大量情报的相关性,挖掘出情报中蕴含的知识及其之间内在联系,从而获取丰富的潜在事实,并对某一知识过往的演化历程和未来的发展趋势进行推理,是现阶段情报分析的一项主要任务[2]。因此,探索挖掘和分析情报的方法,是现代情报研究的一个重要方向。然而,随着信息技术和互联网技术的高速发展,无处不在的信息终端每时每刻都在产生海量信息,不同信息之间的关联也日益复杂多样,各类信息呈爆炸式增长趋势。特别是在电子信息装备情报领域,互联网的发展使得情报知识的传递更加迅速和广泛,导致情报数据的增长是指数级的,情报研究的对象从单纯的纸质情报发展为数字化、电子化的情报,数据形式也呈现出多样化的特点。如何在海量的、异构的情报数据中进行分析研究,如何应对电子信息装备领域的专业性要求,这都给情报分析人员带来了极大的困难和挑战。当务之急需采用新的技术手段来挖掘、整合和分析海量的异构数据,对不同来源的知识进行融合,为情报分析人员提供辅助手段,提升情报共享服务能力和情报产品的质效。

将知识图谱引入电子信息装备情报领域,是解决上述问题的一个思路。知识图谱通过自然语言处理、语义网络等底层技术的支持,能够从大量文本中自动抽取信息来构建结构化的知识,实现大规模、自动化的知识获取[3]。建立电子信息装备情报知识图谱,统一描述各类电子信息装备实体数据,规范其组织关系,一是可以在语义上实现多源异构数据的融合;二是能够以图的形式将具有复杂关系的电子信息装备情报知识表示出来,辅助情报分析人员从大量数据及其相互关系中快速获取其关注的知识;三是可整合内、外部情报产品以及结构化情报数据等,深层次挖掘电子信息装备情报在语义层次的相关知识和内在关联,进而厘清电子信息装备之间潜在的相互关联关系,为情报分析人员挖掘潜在的情报知识提供更为直接的支撑服务。

本文介绍了知识图谱技术以及基本的构建方法,并结合电子信息装备情报领域的特点,进一步提出电子信息装备情报领域知识图谱的构建框架和构建方法,可为其他情报领域知识图谱研究人员提供借鉴与参考。

1 知识图谱

1.1 知识图谱定义及其分类

知识图谱的概念率先由谷歌公司提出,它可以用图式模型来描述知识和建模世界万物之间的关联关系[4]。主要包括节点和边,节点通常是实体或抽象的概念,边通常是实体的属性或实体与实体之间的关系,用节点和边的形式来表示知识及其内在关系[5-6]。自谷歌提出知识图谱以来,其他搜索引擎公司也陆续宣布了其“知识图谱”产品,主要是为了提高自身搜索引擎返回结果的准确率和召回率。目前,知识图谱所涉及的底层技术已经较为成熟,全世界范围内已完成了多个大规模知识图谱的构建,如DBpedia、YAGO、Freebase、NELL、BabelNet等[7]。

从面对的受众和知识来源来看,知识图谱一般可划分为领域知识图谱和通用知识图谱。领域知识图谱主要针对特定领域,具有很强的针对性,如电子商务、医疗健康、金融证券、基因工程等。通用知识图谱描述的是一般、通用的知识,并不针对特定领域,更多的是应用于智能搜索等领域,例如雅虎、百度、谷歌搜索引擎目前使用的知识图谱。两者的侧重点也不同,领域知识图谱更加侧重于知识的深度,它需要依靠大量准确丰富的、知识结构复杂、知识质量高的领域内数据来构建,并且还需要通过人工对图谱进行校正来提高领域知识图谱的准确性和专业性;通用知识图谱侧重于知识的广度,对准确度不做强制关注,主要是因为受限于概念范围的影响,实体、实体属性、实体间的关系很难通过其它手段进行规范,因而无法确保准确度[8]。

1.2 知识图谱构建方法

知识图谱的构建涉及多项关键技术,对数据源的完整性和准确性要求较高,是一个系统而复杂的过程。知识图谱的构建方法大致可以分为两大类:自上而下方式和自下而上方式[9]。

自上而下方式主要是从百科类数据源中获得本体、本体之间的上下层级关系和有关规则,形成清晰的架构层级,然后通过实体学习,将实体纳入本体的架构中,形成知识图谱。这种构建方法因为数据源具有较好的层次结构和较高的数据准确率,因此能够构建出质量较好的知识图谱。

与自上而下方式相反,自下而上的构建方式是先抽取底层实体,然后对实体进行归类总结形成概念,最后自下而上逐步对概念进行抽象,从而形成本体的结构层次。这种方式对数据类型不做要求,即可以是互联网上的非结构化网页数据,也可以是非结构化的文本数据,如word、txt 等。以自下而上方式构建的知识图谱在准确率上不如以自上而下方式构建的知识图谱,主要是因为自下而上的方式所涉及的信息抽取、命名实体识别等技术,相对依赖于NLP 技术的发展程度。此外,由于在知识图谱的构建过程中,可能会有多个数据来源,从这些数据源中抽取的信息可能存在冗余信息、错误信息、甚至相悖的信息,这些异常信息都会导致知识图谱的准确度下降,因此如果要提高由自下而上方式形成的知识图谱的准确度还需要知识融合技术的发展。

在实际的构建过程中,为了提高知识图谱的准确度,一般采用两种方式相结合的方法来进行构建[10]。

2 电子信息装备情报知识图谱构建

2.1 电子信息装备情报知识图谱构建流程

构建电子信息装备情报知识图谱,是通过数据获取、自然语言处理、语义分析等方法来挖掘处理涉及电子信息装备的情报数据,并采用图结构来表示电子信息装备实体、实体属性以及实体之间的关系,形成可以不断更新的电子信息装备情报知识图谱。

由于电子信息装备专业性较强,对准确性和层次关系要求较高,因此,电子信息装备情报知识图谱作为一种领域知识图谱,需要有严格的本体层结构以及相关度高且准确的电子信息装备情报领域数据。因此,本文采用自上而下和自下而上的组合方式,对电子信息装备情报的知识图谱进行构建,其构建过程如图1所示。

图1 电子信息装备领域知识图谱构建流程

首先通过本体学习对数据词典、叙词表、逻辑规则等数据进行处理来构建电子信息装备情报知识图谱的本体模型;然后针对构建好的本体模型,通过知识抽取技术对电子信息装备情报数据进行实体、关系和属性的抽取;再经过知识融合对抽取的实体、属性和关系进行进一步的处理;最终完成电子信息装备情报知识图谱的自动构建和知识存储[11]。

2.2 数据采集处理

数据采集是电子信息装备情报知识图谱数据来源最主要的手段,主要是对异构、分散的各种情报与数据资源进行采集和存储。数据来源包括互联网开源信息、内外部情报产品以及各类情报数据库;格式主要包括结构化、半结构化以及非结构化等三类数据。其中,互联网开源信息主要采用网络爬虫进行采集,本文主要采用基于DOM 的网页文本抽取技术;数据库主要将数据通过ETL 抽取转换到目标数据库的方式进行信息采集,本文选择kettle 作为数据迁移的引擎;而对于内外部情报产品,主要采用基于FTP 服务器进行采集,并且将文本文件的内容抽取转换到指定的字段上。

数据采集后,需要对各类数据进行预处理,用来进行数据的融合以及电子信息装备情报知识图谱的构建。预处理主要包括信息的清洗、信息的转换、信息要素的标引等方面的内容。其中,信息的清洗主要是检测并处理原始数据中的不完整数据、重复数据、错误数据等“脏数据”,保证数据的质量;信息转换是通过数据转换函数将清洗后的数据转化为具有统一格式的数据,主要在数据的语义表达、数据类型、数据长度、数据精度等方面进行统一的数据转换;信息要素标注主要是对数据产生的时间、标题、修改的时间、来源、所属分类、可信程度、作者、属性信息等内容进行标注和明确。数据采集架构如图2所示。

图2 数据采集架构

2.3 本体构建

领域本体能够对特定领域内的实体概念及其相互关系、领域活动及其所具有的规律和特性进行形式化的描述。构建电子信息装备情报领域本体能够定义实体的范围、属性、相互层次关系、约束关系、关联关系等,明确本体的概念、属性、关系和规则,形成知识的结构层次,避免在构建知识图谱时出现较多的错误。在初期的本体建模中采取人工建模的形式完成对电子信息装备情报领域本体概念与属性的刻画与定义。

知识本体的构建流程主要包含三个阶段:

(1)实体关系相似度计算;

(2)实体上下位关系抽取;

(3)本体的生成。

比如,在知识图谱构建之前得到的三个与电子信息装备相关的“宙斯盾系统”“计算机”“SPY-1 雷达”实体,构建模型并不知道它们之间的具体差异,但当计算完三个实体之间的相似度之后,会发现“宙斯盾系统”和“SPY-1雷达”之间可能更相似,和“计算机”之间的差别可能更大一些。这就是第一步的作用是在构建知识图谱之前获得实体之间的相似度。这个阶段的知识图谱没有一个上、下层的概念,通过进行第二步实体上下位关系抽取,可以让知识图谱具有上、下层的关系。当结束了前两步以后,这个知识图谱知识节点之间的关系可能就会更加清晰,从而生成本体。比如“宙斯盾系统”和“SPY-1 雷达”,其实都是电子信息装备情报领域实体下的细分实体,并且“SPY-1雷达”是“宙斯盾系统”的一部分。知识本体建立示例如图3所示。

图3 知识本体建立示例

此外,在手动构建最初的本体时,本文还构建了电子信息装备领域叙词表,通过叙词表的相互层次关系,可以提高电子信息装备情报领域本体库的准确率。

2.4 信息抽取

信息抽取的目的是产生知识图谱所需要的数据,主要包括命名实体识别、实体的属性抽取、实体间的关系抽取等三个方面。

命名实体识别主要是用来识别文本中事物的名称,如装备名称、国家名称、机构名称、武器平台等。本文采用的实体识别模型是LSTM-RNN 模型,传统的循环神经网络(RNN)模型可以学习历史的信息,但在进行长序列学习时会出现梯度消失或者爆炸的现象,无法解决长时间跨度的非线性关系[12-13]。长短时记忆网络(LSTM)是一种时间递归的神经网络,适用于解决延迟时间较长的事件问题,并能解决使用RNN 时出现的梯度消失和梯度爆炸问题[14-15]。本文将RNN 和LSTM 相结合,充分利用二者优点,使模型效果得到进一步加强,在进行术语抽取的时候对当前历史信息和长距离信息都可以进行学习,使抽取效果更好[16-17]。本文的实体识别架构如图4 所示,分为特征抽取、实体抽取、实体过滤。

图4 实体识别架构

属性抽取主要是将实体的属性名、属性值从文本数据中抽取出来,形成一个能够描述实体属性信息的三元组(实体、属性名和属性值)。例如,句子“标准3导弹弹体长度是6.55 m”中表述的关系可以表示为(标准3 导弹,弹长,6.55 m)。本文属性抽取架构如图5 所示,主要分为特征抽取、候选实体对抽取、三元组抽取和三元组过滤。

图5 属性抽取架构

关系抽取主要是将实体间的语义关系从文本数据中抽取出来,形成一个能够描述实体关系的三元组(实体a、关系和实体b)。例如,句子“EA-18G 服役于美国海军”中表述的关系可以表示为(EA-18G,服役于,美国海军)。为了提高关系抽取的效果,本文采用带注意力机制的双向长短时记忆网络(Bi-LSTM)模型[18]。LSTM/RNN 模型使用传统的编码器-解码器结构时有一个问题:在将输入信息编码成向量时,无论输入长短,其编码的向量长度都是一个固定值,这使得模型在学习长输入序列时效果很差[19-20]。而注意力机制利用模型输出时会选择性地专注考虑输入中最相关信息的原理,使关系抽取更加准确[21]。

关系抽取系统基于流水线架构,主要分为特征抽取、候选实体对抽取、三元组抽取和三元组过滤等模块。关系抽取系统架构如图6所示。

图6 关系抽取架构

2.5 知识融合

在信息抽取完成后,会出现不同数据来源关于同一实体的描述信息不完整或有歧义等问题,因此需要借助知识融合来完善实体的描述信息或者消除描述信息的歧义,对不同数据来源的异构数据能够按照一定的规则进行整合。文本在构建电子信息装备情报知识图谱时进行知识融合需要解决的问题主要有以下两种:

(1)实体的歧义和共指问题。在进行实体的链接时,会出现某个实体有多个指代对象的问题,也会出现同一实体对象有多个指称项与之相对应的问题[22]。例如,“F-22”“猛禽”“F-22战斗机”三个指称项都指向了美国空军“F-22”战斗机这个同一实体对象,这是共指问题;而“猛禽”除了可以指代“F-22”战斗机实体外,还能指代某一种鸟类,这就是歧义问题。实体的歧义和共指问题会影响知识图谱构建的准确性,因此在构建图谱时要尽可能地解决此类问题,学术界将解决实体的歧义问题称为实体消歧,将解决实体的共指问题称为共指消解[17]。本文主要采用了基于本文相似度模型的聚类法来进行实体消歧和共指消解。

(2)实体属性值冲突问题。在进行知识融合时有时会遇到属性矛盾的情况,例如在进行属性抽取可能会遇到(F-22,乘客与载人数,2 人)和(F-22,乘客与载人数,1 人)两组属性相悖的三元组。本文采用了对不同数据源赋予不同的信源可信度[0,1],并结合投票机制的方式来选取较为准确的属性值。若属性值来自于更高的信源信息则以该信源信息为准,若最高信源的信息不止一篇,则进行投票机制,选择出现次数最多的属性值。例如,在本例中假设(F-22,乘客与载人数,2人)的来源有(凤凰军事,可信度,0.8)、(新浪微博,可信度,0.7),(F-22,乘客与载人数,1 人)来源有(维基百科,可信度,0.8)、(百度百科,可信度,0.8),按照本文的属性矛盾处理方案可以推断出应该被采纳的属性三元组为(F-22,乘客与载人数,1人)。

2.6 知识存储

知识图谱存储主要对电子信息装备实体以及实体关系进行规范化的存储,用于为后续的电子信息装备情报分析、检索和服务等应用提供数据。由于知识图谱的特性及其知识推理等应用需求,传统的关系型数据库无法适用于知识图谱的全部应用场景,因此知识图谱的数据库一般选择图数据库。现阶段比较常见的图数据库主要有Neo4j、GraphDB、MangoDB等。

本文根据后续的实际应用,选择Neo4j作为其知识存储的数据库。Neo4j 是一种以Java 语言为基础开发的非关系型图形数据库,能够将结构化数据存储在图上而非表中。本文将电子信息装备情报知识图谱中的概念、实体的基本信息、属性和实体间的关系存储在Neo4j 数据库中。

3 结语

电子信息装备情报知识图谱是一种领域知识图谱,将知识图谱引用到传统的情报分析工作中,能辅助情报人员对大量情报信息进行快速的分析了解,有效地提高情报分析人员的工作效率,保证了情报产品的时效性,并且由于其知识特性及关联性,能够从中分析挖掘出更深层次的隐含知识,增加情报研究内容的深度,提升情报产品的质量。本文以实际应用需求为出发点,设计了电子信息装备情报知识图谱的基本框架,分析总结了电子信息装备情报知识图谱构建中所需的一些关键技术,以期能够为其他领域知识图谱的构建和应用提供参考和借鉴。

猜你喜欢

电子信息情报本体
情报
情报
情报
电子信息与物理系简介
电子信息工程系
电子信息科学与技术
针对电子信息隐藏技术的研究
基于本体的机械产品工艺知识表示
《我应该感到自豪才对》的本体性教学内容及启示
交接情报