基于RDF重写的航空安全事件因果关系查询方法研究
2019-08-23王红杨蓉郭静
王红 杨蓉 郭静
摘 要: 针对航空安全事件RDF图数据因果关系查询中低匹配和无匹配的问题,提出一种基于语义相似度和RDFS规则的重写方法。该方法首先采用基于词向量的语义相似度计算方法将用户RDF三元组转换为领域本体RDF三元组,然后依据RDFS规则对领域本体RDF三元组进行关系扩展重写,最后将该方法应用于航空安全事件因果关系的查询。实验结果表明,该方法在查全率和查准率方面取得明显效果,能够改善因果关系查询中低匹配和无匹配的问题,为解决航空安全事件因果关系的查询问题提供了方法支持。
关键词: 因果关系查询; 关系重写; 航空安全事件; 语义相似度计算; 查询效果分析; 查询语句扩展
中图分类号: TN919?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2019)16?0149?05
0 引 言
近年来非正常条件下的航空安全事件呈多元化趋势,包括大面积航班延误、航空器危险接近、航空器坠毁等,获取航空安全事件的因果关系,分析事件的前因后果,对于航空安全事件的有效预防和应急处理能力的提升具有重要的意义。在航空安全领域中,肖志伟等人提出了一种领域本体相关概念的语义相似度计算检索方法,实现了领域本体的语义检索;李林等人利用语义模式表达匹配算法找到用户查询的相关语义概念,实现了民航突发事件应急案例的语义检索;蔡伟伟等人提出了基于领域本体的分布式推理与查询方法,实现了相似案例查询;王雪君等人利用标签传播算法将语义结构密切的数据进行多级划分,实现了相似案例的查询[1]。然而上述方法都是基于领域本体的查询方法,用户查询关键词和领域本体无法准确映射,导致查询过程中查准率和查全率较低,出现低匹配和无匹配的问题。
因查询扩展方法能够有效提高查询的查准率和查全率,所以文中提出一种基于RDF重写的查询扩展方法。重写是数据库查询的一种优化技术,将查询关键词进行扩展并映射到本体的一种技术。重写技术被广泛应用于数据库查询优化中,如数据集成环境中的聚集查询[2],挪威国家石油公司的数据查询[3?5]。目前重写技术的研究主要分为基于相似度的重写和基于RDFS规则的重写。其中,相似度计算方法包括向量空间模型(VSM)[6]、编辑距离方法[7]、基于词向量与句法结构的方法[8]和基于深度神经网络的计算方法[9]等。RDFS推理规则[10?11]是RDF数据推理中的核心部分,是推理研究中首选的规则集,基于RDFS规则的重写是依据规则进行领域本体RDF三元组的重写。本文将重写技术应用于航空安全事件RDF图数据的因果关系查询,旨在解决低匹配和无匹配的问题,为航空安全事件的因果关系分析提供有价值的信息。
1 研究思路
基于重写的航空安全事件因果关系查询的研究思路如图1所示。
1) 基于语义相似度计算的RDF概念和关系重写。采用词向量的方法,将用户RDF三元组的主语、宾语和领域本体中的概念,谓语和本体中的关系进行余弦相似度计算,选择相似度高于阈值的概念和关系,将用户RDF三元组的主语、宾语、谓语转换为领域本体的概念、关系。
2) 基于RDFS规则的关系扩展重写。采用RDFS规则,通过对航空安全领域本体的模式数据进行预处理,组织成四类数据集,获得新的模式三元组数据。步骤1)中的领域本体RDF三元组,利用RDFS规则,实现本体概念、关系以及关系约束的重写,获得新的RDF三元组。
3) 航空安全事件因果关系的查询。将上述方法应用于航空安全事件RDF图数据的因果关系查询中,进行实验对比,以查全率和查准率作为评判标准,验证重写查询的有效性。
2 基于语义相似度和RDFS规则的重写
基于语义相似度重写和基于RDFS规则的重写,可以将用户原本单一的查询语句扩展成多个查询语句。
2.1 航空安全领域本体因果关系RDF图数据的构成
航空安全领域本体因果关系数据集来源于民航安全事故调查报告。根据中国民用航空局《民用航空器事故和飞行事故征候调查规定(CCAR395?R1)》中的规定,航空器事故是航空器飞行事故和航空器地面事故的总称。在航空安全领域本体中,将航空安全事故的原因划分为航空器故障致灾、环境原因致灾、人为因素致灾三大类,航空安全事故的最终结果划分为航空器损坏、人员伤亡和地面设施损坏三大类。图2给出了领域本体中的因果关系主要概念的构成。其中,类别的下标格式为“X,XX,XXX,……”,即第1位表示一级类别,2~3位表示二级类别,4~6位表示三级类别。
本文采用基于图数据库Neo4j的领域本体分布式存储方法[12?13],可以最大限度地保持RDF数据的语义信息,也有利于对语义信息的查询。其中一个存储节点主要负责模式数据的存储。
由于Key?value型的数据库Redis查询性能高并且支持持久化存储,因此,文中采用Redis数据库来存储模式数据。图3给出了航空安全领域本体部分RDF图数据,其中航空安全事件是由事件發生的时间和航班号组成。
2.3.2 基于RDFS规则的重写
基于RDFS规则的重写是依据RDFS规则将领域本体RDF三元组重写为新的RDF三元组。首先对模式数据进行预处理,然后进行RDFS规则匹配,实现领域本体RDF的重写。实现过程如下:
1) 从Redis数据库中读取模式数据,谓词为domain,range,SubPropertyOf,SubClasssOf的三元组分别存放在domainData,rangeData,SubPropertyData,SubClassOfData数据集中。
2) 如果SubPropertyData数据集中,存在p rdfs: SubPropertyOf q && q rdfs: SubPropertyOf r,依据规则1,将p rdfs: SubPropertyOf r存放在SubPropertyData数据集中。
3) 如果SubClassOfData數据集中存在x rdfs: subClassOf y && y rdfs: subClassOf z,依据规则2,将x rdfs:subClassOf z存放在SubClassOfData数据集中。
4) 如果RDF三元组[t=s,p,o],谓语p[∈]SubPropertyOfData && p rdfs: SubPropertyOf q依据规则3,输出[ti=s,q,o]。
5) 如果RDF三元组[t=s,p,o]和[ti=s,q,o],谓语p[∈]domainData && p rdfs:domain x或者谓语q[∈]domainData && q rdfs:domain x,依据规则4,输出[tj=(s,type,x)];
6) 如果RDF三元组[t=s,p,o]和[ti=s,q,o],谓语p[∈]rangeData && p rdfs:range x或者谓语q[∈]rangeData && q rdfs:range x,依据规则5,输出[tm=(o,type,x)];
7) 如果RDF三元组[t=s,p,o],[tj=(s,type,x)],[tm=(o,type,x)]的谓语是type时,o[∈]SubClasssOfData && o rdfs:subClassOf y,x[∈]SubClasssOfData && o rdfs:subClassOf y,依据规则6,输出[tn=(s,rdf:type,y)],[to=(o,rdf:type,y)]。到此重写完成。
其中,步骤1)~3)为模式数据的预处理,步骤4)~7)依据RDFS规则对领域本体RDF三元组进行重写。
3 航空安全事件因果关系查询与效果分析
3.1 航空安全事件因果关系查询
若用户RDF三元组[t1=(ei,type,si)],[t2=(ei,cause,ri)],[ei]表示突发事件,[si]表示事件原因,[ri]表示事件结果。首先将用户RDF三元组重写为航空安全领域本体RDF三元组,采用基于词向量的语义相似度重写方法,将[si]和[ri]分别和航空安全领域本体的概念进行相似度计算,选择相似度超过阈值β的概念进行RDF三元组重写,重写后的三元组为[t1=(ei,type,soi)];[t2=(ei,cause,roi)]。其中,[soi]为领域本体中的事件原因、[roi]为领域本体中的事件结果。然后进行基于RDFS规则的领域本体RDF三元组重写,其中,[t2=(ei,cause,roi)]依据规则4和规则5可以重写为[t3=(ei,type,sp)],[t4=(roi,type,rp)]。其中[sp],[rp]分别为谓词“cause”的domain约束、range约束。[t1=(ei,type,soi)],[t3=(ei,type,sp)],[t4=(roi,type,rp)],依据规则6可以改写为[t5=(ei,type,ssoi)],[t6=(ei,type,ssp)],[t7=(roi,type,rsp)]。其中[ssoi],[ssp],[rsp]分别是[soi],[sp],[rp]的子概念。图4是基于RDF重写的航空安全事件的因果关系查询。
图4 基于RDF重写的航空安全事件因果关系查询
Fig. 4 Causality query of aviation security events
based on RDF rewriting
依据重写后的一组RDF三元组从航空安全事件RDF图数据集中搜索匹配的结果。以“航空器机头故障”为例,查询结果如表1所示。
3.2 查询效果与分析
查询效果与词向量存在重要的联系。在词向量训练过程中,对特征向量的维度size、相似度β值进行对比试验。其中,P为查准率;R为查全率;F1值的计算公式为[2×P×RP+R]。实验结果如表2所示。
表2所示的实验结果表明,当size=300,β=0.90时,F1值最高,此时的查询效果最好。因此在航空安全事件RDF图数据查询实验中,设置参数size为300,β为0.90。
为验证重写技术的有效性,依据事件原因和结果分别进行查询,与基于单纯本体扩展查询方法进行对比试验,结果如表3所示。基于重写的查询结果优于基于单纯本体扩展查询的方法。重写查询可以将用户原本单一的查询语句扩展成多个查询语句,提高了查询的查全率和查准率。
4 结 论
针对航空安全事件RDF图数据因果关系查询中低匹配和无匹配的问题,提出一种基于语义相似度和RDFS规则的重写技术,对航空安全事件因果关系查询进行优化。将该方法应用到航空安全事件RDF图数据因果关系查询中,通过实验证明了该方法在查询中的优势,平均查准率提高10%,平均查全率提高16%,可以改善因果关系查询中低匹配和无匹配的问题,从而为航空安全事件的预防和应急处理提供有价值的信息。下一步可以考虑加入用户的反馈信息和关键词的权重,进一步改善查询的效果。
表3 查询性能对比
Table 3 Comparison of query performances
[事件查询 因果关系 重写查询 本体扩展查询 P R P R 事件结果查询 航空器故障 0.89 0.91 0.78 0.69 人为原因 0.80 0.88 0.72 0.77 环境原因 0.88 0.85 0.76 0.73 事件原因查询 航空器损坏 0.84 0.95 0.75 0.69 人员伤亡 0.83 0.93 0.73 0.73 地面设施损坏 0.87 0.85 0.82 0.77 其他 0.85 0.80 0.69 0.65 ]
参考文献
[1] 王红,王雪君,杨蓉.基于图划分的领域本体RDF存储方法[J].现代电子技术,2018,41(24):141?145
WANG Hong, WANG Xuejun, YANG Rong. A domain ontology RDF storage method based on graph partitioning [J]. Modern electronics technique, 2018, 41(24): 141?145.
[2] 张晓刚,杨路明,潘久辉.数据集成环境下一种高效一致性聚集查询[J].计算机学报,2014(9):1936?1946.
ZHANG Xiaogang, YANG Luming, PAN Jiuhui. An efficient consistent aggregate query in data integration environment [J]. Chinese journal of computers, 2014(9): 1936?1946.
[3] BOTOEVA E, CALVANESE D, SANTARELLI V, et al. Beyond OWL 2 QL in OBDA: rewritings and approximations [C]// Proceedings of 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI Press, 2016: 921?928.
[4] KHARLAMOV E, HOVLAND D, JIMENEZRUIZ E, et al. Ontology based access to exploration data at Statoil [C]// Proceedings of 14th International Semantic Web Conference. Bethlehem: [s.n.], 2015: 93?112.
[5] BAGOSI T, CALVANESE D, HARDI J, et al. The ontop framework for ontology based data access [J]. Communications in computer & information science, 2014, 480(1): 67?77.
[6] 冯高磊,高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术,2018,41(11):157?161.
FENG Gaolei, GAO Songfen. Text similarity algorithm combining semantics based on vector space model [J]. Modern electronics technique, 2018, 41(11): 157?161.
[7] 何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389?394.
HE Feng, GU Suolin, CHEN Yanhui. Text proofreading technology based on levenshtein distance similarity [J]. Journal of spacecraft TT & C technology, 2015, 34(4): 389?394.
[8] 李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256?260.
LI Xiao, XIE Hui, LI Lijie. Research on sentence semantic similarity calculation based on word2vec [J]. Computer science, 2017, 44(9): 256?260.
[9] 陈晓阳.基于深度学习的短文本语义相似度计算[D].北京:北京理工大学,2015.
CHEN Xiaoyang. Short text semantic similarity calculation based on deep learning [D]. Beijing: Beijing Institute of Technology, 2015.
[10] 呂小玲,王鑫,冯志勇,等.MPPIE:基于消息传递的RDFS并行推理框架[J].计算机科学与探索,2016,10(4):451?465.
L? Xiaoling, WANG Xin, FENG Zhiyong, et al. MPPIE: RDFS parallel inference framework based on message passing [J]. Journal of frontiers of computer science & technology, 2016, 10(4): 451?465.
[11] MOHAMMAD F H, MCGLOTHLIN J P, MASUD M , et al. Heuristics?based query processing for large RDF graphs using cloud computing [J]. IEEE transactions on knowledge & data engineering, 2011, 23(9): 1312?1327.
[12] 王红,张青青,蔡伟伟,等.基于Neo4j的领域本体存储方法研究[J].计算机应用研究,2017,34(8):2404?2407.
WANG Hong, ZHANG Qingqing, CAI Weiwei, et al. Research on storage method for domain ontology based on Neo4j [J]. Application research of computers, 2017, 34(8): 2404?2407.
[13] 宫法明,李翛然.基于Neo4j的海量石油领域本体数据存储研究[J].计算机科学,2018,45(z1):549?554.
GONG Faming, LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j [J]. Computer science, 2018, 45(S1): 549?554.