APP下载

基于知识图谱的金属材料环境适应性可视化系统构建研究

2021-03-10西南技术工程研究所刘青林光文军罗杰

网信军民融合 2021年2期
关键词:三元组数据源金属材料

◎西南技术工程研究所 刘青林 光文军 罗杰

装备环境适应性是指武器装备对环境的适应能力,是武器系统在实际应用或服役环境下的性能和可靠性达到理想环境下的程度。随着金属材料在武器装备设计制造中广泛使用,新型合金材料和处理工艺不断出现,材料使用或服役的环境条件复杂多变,采集和积累的金属材料效应数据日渐繁杂冗余,这与科研设计人员面对多数据源如何快速获取所需金属材料相关性能、对金属材料的环境适应性数据进行可视化对比以帮助选材优材的需求逐渐出现矛盾,而知识图谱技术的发展为此类“数据丰富,知识贫乏,可视化效果差”的问题提供了新的技术解决思路,且在互联网上的开放知识图谱(比如Wikipedia、Freebase、DBpedia、Microsoft Concept Graph)中存在大量不同领域的结构化数据,为金属材料环境适应性可视化系统的构建与实现提供了高质量数据源,系统的实现将促进金属材料领域知识的共享和交换,提高其利用价值。

一、总体思路

知识图谱是由相互链接的知识点组成的关系网络数据库,是解决知识表达和存储管理的一种数据组织模式,由谷歌公司于2012 年率先提出这一概念,获得了前所未有的关注。本文利用从开放知识图谱DBpedia 中抽取的金属材料领域数据构建了一个领域本体作为可视化图谱的数据源,再通过SQL Server 数据库存储及处理此数据源,最后利用D3.js 构建了金属材料知识图谱的可视化系统,总体思路框架见图1。

二、金属材料领域知识图谱构建方法

(一)数据获取

图1 总体思路框架

图2 金属材料知识图谱构建流程

DBpedia 是世界上最大的多领域开放知识图谱之一,它从维基百科(Wikipedia)的词条里撷取出结构化的数据,以强化维基百科的搜索功能。本文利用网络爬虫采集获取常用金属材料的科技文献报告与DBpedia 中抽取的金属材料领域数据构建了一个领域本体作为可视化系统的数据源,在该本体有4300 多个三元组,其中包含763 个类,1541 个实例以及113 个属性。将源数据按照材料牌号、处理工艺、服役环境、性能表现等方式进行数据预处理,构建金属材料环境适应性信息,具体如表1 所示。

(二)可视化知识图谱构建

本文通过Python + SQL Server + D3.js 的技术框架实现了面向常用金属材料领域的知识图谱,其主要构建流程如图2。

金属材料知识图谱的构建过程主要分为数据源的采集与存储、结构化数据的构建以及可视化系统的开发等三个步骤,对DBpedia 获取数据通过Redis、Neo4j、SQL Server 等数据处理工具的清洗形成金属材料知识图,主要流程如下:

1、源数据的采集与存储:本文采用Python 语言的Scrapy 爬虫框架实现了互联网文本数据的分布式爬取,将爬取得到的金属材料文献数据存入Redis 数据库中。

2、结构化数据的构建:通过自动化脚本对Redis 中的数据进行进一步的数据清洗后保存至格式文件中,再将格式文件导入至Neo4j 图形数据库和SQL Server 关系型数据库中。

3、可视化系统的构建:使用Python 3.7 版本的编程语言完成了爬虫、数据清洗的处理,使用D3.js 实现数据的可视化。

(三)数据库结构

本文通过SQL Server 关系型数据库实现了金属材料环境适应性数据的存储及管理。数据库包括四张表,其中MetallicMaterial、TreatmentProc 及EnvTest 三张实体表分别存储了材料牌号和处理工艺、环境因素与试验的相关信息,EnvSuitability 表则存储了金属材料知识图谱中的事实三元组信息。其中MetallicMaterial 表、TreatmentProc 表与EnvTest表是多对多的关系,通过MetalBrand 和TreatmentProcID 两个字段进行了表间关系的映射,EnvSuitability 表则存储了知识图谱中的三元组。

表1 常用金属材料环境适应性信息表

图3 数据库结构

图4 常用金属材料的可视化图谱

具体地说,在数据库中EnvTest 和EnvSuitability 两张表都表示了金属材料环境适应性的试验结果信息,EnvTest存储了原始的数据,而EnvSuitability 则把关系映射为了三元组,即EnvSuitability 中的数据来自于EnvTest。在知识图谱中的关系有两种:一种称作属性(property),而另一种称为关系(relation)。表EnvSuitability 只存储实体间的关系,属性由实体表检索得到,在EnvSuitability表中的字段 type,就是用来区分三元组中的关系是实体间的关系还是实体的属性,便于之后可视化系统的构建。

(四)可视化系统的设计与实现

本文的可视化系统以Django 框架搭建了Web Server,Web 前端则通过D3.js 实现了基于知识图谱的金属材料环境适应性数据可视化。该系统可以检索不同牌号的金属材料获取相应的图谱信息,并会根据数据的更新来调整有向图版本。本文选取了常用的6 种金属材料和其对应试验环境下的效应数据进行可视化的演示,演示结果如图4 所示,其中蓝色的代表知识图谱中的实体,红色代表属性,绿色的是实体和属性之间的关系。

三、 总结与展望

本文通过属性值融合的方法研究构建了异构多数据源的常用金属材料环境适应性知识图谱,以Python 编程语言中的Scrapy 爬虫和Django Web 两种框架搭建了“数据爬取-数据存储-数据清洗-数据应用”的整套处理流程,并以D3.js 为基础实现了金属材料环境适应性数据的可视化。

随着大数据技术的发展,对装备环境适应性数据进行深度挖掘和可视化展示的研究成为一项全新的课题,通过对金属材料环境适应性数据的分类和知识图谱技术的运用,可以更为深入的了解和研究装备提供数据支持,为科研试制人员在型号设计时进行材料选择、优化材料性能提供科学决策参考依据。

猜你喜欢

三元组数据源金属材料
特征标三元组的本原诱导子
关于余挠三元组的periodic-模
把握考查角度 学好金属材料
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
负载型纳米金属材料的最新研究进展
沈阳宇金属材料研究所
新型金属材料在现代城市建设中的应用
基于三元组的扩频码构造及其性能分析
基于真值发现的冲突数据源质量评价算法