APP下载

基于开源数据的武器装备知识图谱构建方法研究*

2018-04-12丁君怡赵青松夏博远邹志刚

指挥控制与仿真 2018年2期
关键词:三元组分词开源

丁君怡, 赵青松, 夏博远, 邹志刚

(1.国防科技大学系统工程学院, 湖南 长沙 410073;2.复杂航空系统仿真重点实验室, 北京 100076)

武器装备信息的获取与存储对于装备论证工作与军队发展起着重要作用。目前对于武器装备信息的存储主要以传统的数据库形式为主,存在着数据量大,关联性差,呈现方式不直观,更新与维护繁琐等现象。而新兴的知识图谱作为基于图结构的知识存储管理模式,具有关系清晰,结构灵活,可视化程度高的优势。构建基于开源数据的武器装备知识图谱有利于形成更为高效明确的武器装备信息管理体系,从而有效改善现有武器装备信息管理弊端。

知识图谱(Knowledge Graph)[1]的概念是2012年由Google公司公开发布的。其本质是由符合RDF技术标准的“实体-关系-实体”与“实体-属性-属性值”三元组为基本单位相互连接交织形成的知识网络[2]。荆涛,左万利等[3]提出了EPTT算法与DTRE算法,对中文网页文本实现了较为精确的语义标注与关系抽取,实现了文本到RDF结构的映射。蒋锴等[4]对于知识图谱在军事领域的应用进行了探索并形成了军事信息搜索技术架构。Rathachai Chawuthai[5]等通过将关联数据转化为结构性知识实现了RDF的可视化。S.Murugesh和A. Jaya[6]通过将自然语言的句子表示为RDF格式来获取知识模式并构建领域本体。Ze-Qi Lin[7]等人面向软件领域提出了“智能发展环境”与“软件知识图谱”的概念,并对其构建与应用的过程进行了详细的阐述。Chunhong Zhang等[8]通过构建一种新的TransHR知识表示模型,将高维关系转化为实体对间独立的向量,实现了对于高维关系数据的知识图谱嵌入。Xiangling Zhang[9]等人推出了一种基于对三元组中主语与宾语相似度计算来推测知识图谱语义相似度的方法,实现了知识图谱的补全。Jay Pujara[10]在利用隐马尔科夫场模型与概率的基础上,提出了KGI(Knowledge Graph Identification)方法,实现了知识图谱中知识的推理与预测。

本文通过对中文开源网络文本的标注与识别,形成RDF三元组,提出构建武器装备领域知识图谱的基本思路与方法指导。

1 基于开源数据的武器装备知识图谱构建框架

基于开源数据的武器装备知识图谱构建,主要由抽取并准备相关信息与绘制知识图谱两大部分组成,具体如图1所示。

图1 武器装备知识图谱构建框架

第一部分是进行武器装备信息的抽取与处理。装备信息是武器装备知识图谱构建的基础。开源的装备信息主要以文本的形式存在于互联网的各类资源中。为了将文本中的信息转化为可服务于武器装备知识图谱构建的结构化知识,需要按照数据梳理,对比识别,形成RDF三元组的步骤对网络数据进行处理。

第二部分是进行武器装备知识图谱的绘制,基于抽取与处理后的结构化知识,以可视化的方式对武器装备知识图谱进行绘制与呈现,展示各武器装备实体及其关系。

2 基于开源数据的武器装备信息抽取

2.1 数据梳理

1)建立武器装备领域本体

领域本体(Domain Ontology)是能够描述特定领域内实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。构建武器装备领域本体能够明确知识结构,避免知识图谱构建中出现过多冗余与错误。在初期的本体建模中采取人工建模的形式完成对武器装备领域本体概念与属性的刻画与定义。本文针对武器装备领域应用Protégé软件工具对于本体进行构造。

图2 Protégé中武器装备领域部分本体类的结构

2)形成武器装备体系词汇表

在包含不同的语法规则与大量同义词的复杂文本环境中,为了更高效地识别网络文本中的信息,需要进一步构建武器装备体系词汇表,对武器装备本体库进行适当补充。

通过设立χ2检验值评估所检验词汇与武器装备领域关联程度的方法构建武器装备体系词汇表。收集与武器装备领域相关与不相关的两批文本材料作为比对参照库,研究同一词汇在武器装备相关领域与不相关领域的网络文本材料中出现频率的差异,从而决定该词汇是否应当被加入到武器装备体系词汇表中。

(1)

针对任一词汇k,公式中ti0表示对于分类i,不含词汇k的网络文本数目,ti1表示对于分类i,包含词汇k的网络文本数目,n表示包含与不包含该词汇的两大类网络文本的总数目,n=(t11+t00+t10+t01)。在具体试验中,运用WordSmith软件完成对文档中出现词频的分析。通过计算词汇的χ2值,可以体现出被测词汇与武器装备体系领域的相关程度。χ2值越高的词汇,说明其与武器装备领域的相关性越强,从而可以考虑将该词汇纳入武器装备体系词汇表。

本文选取互动百科为爬虫软件的爬取对象,爬取与武器装备体系相关的百科词条124篇,与其不相关的其他词条926篇,作为初始库对词汇进行测试与筛选。其中与武器装备领域相关的词条文本统一称为正类,与其无关的词条文本统一称为反类。对于爬取到的网络文本进行去HTML标签与分词处理,得到经过初步处理的正类文本95篇,反类文本821篇。表1为基于以上网络文本得出的部分高χ2值的武器装备领域词汇。

表1 部分高χ2值的武器装备领域词汇

得到武器装备体系词汇表后,通过将词汇表中涉及的词汇与相应概念加入武器装备分词词典,可以扩充由人工构建的武器装备体系本体库,并使得本体库更加倾向于武器装备体系的领域知识,与通用的本体知识库明确地区分开,在构建相关领域知识图谱时具有更高的针对性。

2.2 对比识别

在比对识别时,采取EPTT算法进行实现,该算法大致结构如图3所示。

图3 EPTT算法流程示意

第一步:通用实体识别与标注。应用目前较为成熟的人工设计规则(正则表达式),对于时间、地点等较为通用的实体开展实体识别,并标注出这些通用实体的类型。

第二步:精确词汇匹配与类型标注。通过对照武器装备领域词汇表,精确匹配出文本中的武器装备领域实体并对这些实体进行类型标注。

第三步:近似词汇匹配与类型标注。利用N-gram切分技术,将文本中的句子与武器装备体系词汇表中的词汇进行比对与近似匹配。目的是尽量避免精确匹配时遗漏可匹配词汇,对于近似匹配成功的分词也进行相应的类型标注。但这种增多匹配次数的方法在减少匹配遗漏的同时也有可能导致部分错误匹配混入,为了平衡这两种效果,具体实验时设定一个相关的参数对于是否需要进行第三步的近似词汇匹配进行控制。

第四步:分词结果调整。将匹配到通用类型的实体按照本体所规范的形式进行处理。对于指代或表达同一实体的分词,将它们全部合并为一个新的词汇。

2.3 形成RDF三元组

1)语法结构分析

在对于文本进行了类型标注的工作基础上,通过对语法结构的分析将这些经过分词处理与模式匹配的语料词汇整合为符合RDF技术标准的三元组,形成构建知识图谱的基础资料。

法国语言学家Lucien Tesnière提出语法结构具有较强的层次性,而其建立的根源也是最一般的关系从属关系(或依存关系)。主导这种从属关系的往往是句中的动词,它前后的词汇因为动词的存在常常构成支配与被支配的关系,而这种支配与被支配的方式由这个动词描述。这一从属关系与RDF形式三元组中的主谓宾关系形成很大程度上的对应关系,通常来说,主语为支配者,而宾语为被支配者。根据这种基本的从属形式概念,可以从属对R(Gov,Dep)的形式来表征存在从属关系的两个词汇。其中R表示动词表示的关系,Gov为占支配地位的词汇,Dep为受到支配的词汇。将多个从属对以类似树状的形式进行堆叠,就可以在一定程度上表示复杂句子中的词汇关系。一般情况下,以Gov词作为父节点,Dep词作为子节点,这样形成的树状结构被称为从属树。更进一步,多个从属树以各种关系相互关联,可以组成从属森林,对应表征有多个子句的复杂长句。

利用Stanford Parser来识别分析句子中的从属结构。这一技术需要依靠短语结构树(phrase structure tree)所提供的规则与模式进行语法成分参考,在参考库的领域特征较不明显时,需要人工对标签集进行一定的修正与筛选。本文选择应用中文宾州树库(Penn Treebank Chinese)作为中文语法的参考库,其中包含大量标签对词汇之间的从属关系进行描述。

例如句子:“歼-20将在对空作战中发挥作用,是先进的空军装备。”在经过分词与语义解析后,可以得到如图4所示的从属树。

图4 从属树示例

图4中连线上的标签表示词汇间不同的关系。其中top, attr, nsubj, dobj表示主谓宾关系,top与nsubj表示主语,其余两个标签表示宾语,它们的从属关系依附于与其连线相接的以谓语成分存在的动词;prep与pobj分别代表介词与介词宾语;ccomp表示从句关系;nmod表示修饰关系。

如果将图4从属树中的从属对全部拆分出来,那么按照上文提到的R(Gov,Dep)表示形式,应当有:ccomp(发挥,是),nsubj(发挥,歼-20),dobj(发挥,作用),prep(发挥,在),top(是,歼-20),attr(是,空军装备),pobj(在,对空作战),nmod(空军装备,先进的)。

2)关系抽取

在对分词结果进行语法分析的基础上,利用语义解析得到的从属树中进行关系抽取。此处使用 DTRE算法,输入经过分词处理之后的文本句子以及进行过类型标注的最终结果,通过算法处理,最终直接输出RDF集以及相应的文本片段。

举例对DTRE算法的结果进行说明:“歼-20将在对空作战中发挥作用,是战斗装备和空军装备。”

DTRE算法抽取文本关系的模式如图5所示,存在一定的顺序规律。直接使用DTRE算法对于分词文本进行关系抽取时,可以得到三元组:

(歼-20,发挥,作用)

(歼-20,发挥作用地点,对空作战)。

之后需要对从属树进行ccomp从句关系补全,得到三元组:

(歼-20,是,战斗装备)。

最后还需要针对conj并列关系进行拓展,进一步得到三元组:

(歼-20,是,空军装备)。

到此关系抽取完毕,文本信息完成了从自然语言向RDF三元组映射的过程。

图5 DTRE算法形成RDF三元组结果说明

对于武器装备领域的知识图谱构建,由于其本身具有较强的从属结构性,可以按照其本身概念的从属关系对于知识图谱进行建模。本文在进行关系抽取时着重考虑“包含”“列装”等表从属与分类关系的词汇,降低了关系抽取的难度,并保证了知识图谱的逻辑性与结构完好性。

3 武器装备知识图谱绘制

在完成对武器装备领域知识进行本体构建、词汇收集、文本分词处理、形成备用知识三元组的基础上,融合武器装备领域固有且已在实践中被证明正确性并难以从开源数据中获取的领域知识进行武器装备领域知识图谱的绘制。

知识图谱是一张由许多三元组以“节点-边-节点”小单元相互连接交错形成的“大网”。在完成三元组收集之后,把这些小单元组织起来,并将重复的节点合并,将同一实体对应的边连接到知识图谱中对应的同一节点上,完成从RDF数据到知识图谱的可视化过程。

将收集到的三元组数据利用Gephi软件,以实体为节点,关系为边生成武器装备领域知识图谱。

为了使得武器装备知识图谱具有较为清晰明了的结构从而便于进一步的应用与挖掘,在绘制武器装备知识图谱的过程中需要对其进行适当的简化与去冗余。

进行知识图谱简化去冗余的工作中应遵循以下原则:

1)融合以Same-as关系所连接的节点,并以在三元组集合中出现频率较高的表述来命名融合节点,其余节点与融合得到的新节点之间若存在一条以上同方向的边,则仅保留一条;

2)去除可以通过相互连接的节点与边形成通路推理得出的边;

3)去除由等级分类造成的实例与概念间的边。

经过对武器装备知识图谱的简化处理,得到精简后的武器装备知识图谱如图6所示。

图6 去冗余后的武器装备知识图谱

构建武器装备知识图谱的最终目的在于应用。从技术层面来看,知识图谱能够发挥的最主要作用在于知识检索,其中,装备组合推荐是较为具有代表性的应用方式。

所谓装备组合推荐,是指在给定一定目标或作战背景的情况下,从武器装备知识图谱中抽取出能够实现目标或适应作战环境的武器装备组合。以“空战武器装备体系超视距空战能力”为例,从武器装备知识图谱中抽取支撑这一能力所需的装备知识,结果如图7所示。

图7 超视距空战能力装备支撑体系推荐

从推荐结果使用者可以得到,超视距空战能力的形成需要歼击机、预警机、强击机、轰炸机、空空导弹这样的装备组合来共同实现,而对于每一类别的装备,都相应地查询出备选的武器装备型号,可以较好地服务于武器装备论证或应用工作。

本文构建武器装备知识图谱基于开源数据,但由于武器装备保密性等要求,开源数据可能存在精确度较低、错误率较高等问题,在武器装备知识图谱应用的过程中,需要进一步添加更为准确细致的非开源数据对武器装备知识图谱进行补充,如具体的武器装备参数、属性、作战规则等。但通过开源数据构建的武器装备知识图谱具有较高的相容性,数据更新相对便利,数据量较大,在进行粒度较粗的知识查询时,能够起到较好的效果。

4 结束语

本文在了解知识图谱构建一般流程与方法的基础上,通过对公开网络武器装备数据的采集与梳理实现了部分武器装备知识图谱的构建。

面向开源数据,运用Protégé软件进行武器装备本体建模,并通过采集武器装备领域文档与非武器装备领域文档分别作为正类与反类,计算了部分武器装备领域词汇的χ2值,并将计算值较大的词汇纳入武器装备词汇表中,综合武器装备本体与词汇表作为基本的知识模板对网络文本进行抽取、比对与识别。利用EPTT算法对网络文本中的句子进行分词处理,并参照构建的本体与收集的词汇表进行精确与近似的识别。进一步利用宾州树库(Penn Treebank Chinese)与Stanford Parser工具对句子分词与识别的结果进行语法分析,并利用DTRE算法对经过类型标注与分析处理的文本进行关系的抽取,将网络文本中的主体、谓语、宾语信息映射到RDF三元组形式。最终利用Gephi软件对武器装备知识图谱进行绘制与展现,并在此基础上讨论了基于武器装备知识图谱的面向武器装备组合推荐的应用。

参考文献:

[1]徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016,45(4):589-606.

[2]王昊奋. 大规模知识图谱技术[EB/OL]. http:∥www.tuicool.com/articles/ranqqb.

[3]荆涛, 左万利, 孙吉贵, 等. 中文网页语义标注——由句子到RDF表示[J]. 计算机研究与发展, 2008,45(7):1221-1231.

[4]蒋锴, 钱夔, 郑玄. 基于知识图谱的军事信息搜索技术架构[J]. 指挥信息系统与技术, 2016,7(1):47-52.

[5]Chawuthai R, Takeda H. RDF Graph Visualization by Interpreting Linked Data as Knowledge: LNCS[C].5th Joint International Conference, JIST, Yichang, 2015.

[6]Murugesh S, Jaya A. Representing Natural Language Sentences in RDF Graphs to Derive Knowledge Patterns[C]. Proceedings of the International Conference on Data Engineering and Communication Technology, 2017.

[7]Lin Z, Xie B, Zou Y, et al. Intelligent Development Environment and Software Knowledge Graph[J]. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2017,32(2):242-249.

[8]Zhang C, Zhou M, Han X. Knowledge graph embedding for hyper-relational data[J]. TSINGHUA SCIENCE AND TECHNOLOGY, 2017,22(2):185-197.

[9]Zhang X, Du C, Li P. Knowledge Graph Completion via Local Semantic Contexts: DASFAA[C].International Conference on Database Systems for Advanced Applications, 2016

[10] Pujara J. Probabilistic Models for Scalable Knowledge Graph Construction[D]. University of Maryland, College Park, 2016.

猜你喜欢

三元组分词开源
时序知识图谱的增量构建
分词在英语教学中的妙用
关于余挠三元组的periodic-模
五毛钱能买多少头牛
2019开源杰出贡献奖
结巴分词在词云中的应用
结巴分词在词云中的应用
一个时态RDF存储系统的设计与实现
基于Spark的分布式并行推理算法①
大家说:开源、人工智能及创新