装备试验大数据应用架构研究∗
2019-02-27姚鹏飞
姚鹏飞
(92493部队 葫芦岛 125000)
1 引言
在武器装备试验领域,随着试验任务项目的急剧增长和装备信息化水平的不断提升,试验过程中产生的各类试验信息在数据量上和类型上不断增加,伴随而来的是数据处理时效不高、数据资源利用率偏低的问题,这已成为制约装备试验的一个重要瓶颈。当前,大数据相关技术已成为处理海量数据、挖掘有用信息、辅助指挥决策的有效方式[11~12]。因此,面对日益增长的试验数据量及处理任务,急需加强对基于大数据技术的装备试验数据应用管理平台的研究,以其实现对各类数据资源的高效管理和应用,从而为改进试验方式、提高试验效率提供快速、精准决策。
2 大数据
2.1 概念
大数据是指无法在一定的时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[1]。目前,通常用4V特征对大数据基本特点进行描述。1)Volume:数据量巨大。由传统TB级数据量向PB级数据量发展再到向ZB级数据量发展已成为大数据发展的基本趋势。2)Variety:数据类型多样。大数据不仅包括结构化数据,还包括各种非结构化、半结构化数据类型,而且非结构化、半结构化数据类型比重远远大于结构化数据,增加了数据处理的难度。3)Value:价值密度很低。大数据中的数据价值密度与数据量成反比。4)Velocity:处理速度快。大数据时代,数据的处理、分析、存储和管理通常要达到秒级的响应水平,以用来支持和辅助用户决策。
2.2 应用现状
随着大数据技术的发展,大数据产生的效益日益明显,目前通运输、医疗、金融、电商等领域得到广泛应用[2~3]。在军事领域,美国国防部及国防高级研究计划局已将“数据到决策”、“网络内部威胁”、“影像检索与分析”等10个项目列入研究计划,着力提高美军在大数据获取、管理和分析等方面的能力,已经成为美军建设的战略重点[4]。大数据技术应用已成为战斗力生成的一个重要标志,美军在2013年试飞的X-47B无人机[5],基于大数据分析技术,成功实现了无人条件下的自主决策和自主行动[10]。近年来,我军在指挥信息系统大数据建设、装备保障大数据建设做了一些有益探索,但在大数据实际应用方面还处于初步阶段[6~8]。
3 当前装备试验数据特点及应用现状
3.1 装备试验数据特点
1)数据量大。当前,武器装备信息化程度越来越高,装备试验无论是试验模块还是整个测试过程中,测量设备多、测量参数多,所产生的数据量很大[9]。通常来讲,装备试验数据通常包括试验文书和试验资料等试验档案数据,也包括测试数据、观测数据、目标特性数据、环境物理场数据、模型与仿真数据和计量校标数据等。另外,数字化高清视频图像监测设备在装备试验中的应用越来越普遍,所产生的视频图像数据与日俱增。
2)数据类型多样。试验对象测试数据的多样、测试项目的增加、测试手段的改变造成非结构化数据、半结构化数据的大量出现。非结构化数据、半结构化数据主要包括试验过程中产生的图像、数字、文字、视频、音频等类型数据,其规模和复杂度都超越现有常规技术能够处理分析的范围。
3)数据应用价值高。武器装备试验数据对于装备全寿命周期的有效期很长,往往可以长达十几年至几十年,早期试验数据也可能有很高的利用和使用价值。通过分析历史试验数据,可以发现以往试验过程中存在的问题及需要改进的环节,从而提高武器装备试验效率,保证武器装备质量。
4)数据处理速度快。由于武器装备试验存在型号、批次上的不同,试验项目中往往会用到不同的采集分析软件,造成试验数据在处理上相对分散,数据的处理时效和数据的完整性得不到根本保障。因此,迫切需要采用大数据技术,实现对数据的高效快速分析、存储及管理,从而达到改进试验手段、辅助首长决策的目的。
3.2 装备试验数据应用现状
装备试验数据信息资源主要用于对装备是否满足战术技术要求、研制方案是否正确做出客观评价;提出装备存在的主要问题和改进建议;估计装备作战的适用性和效能,为装备能否定型或装备部队提供依据。当前,受整体技术水平、管理手段和科研基础条件建设等因素的制约,装备试验数据的管理与应用存在着如下问题:
1)历史试验数据数字化程度较低。长期以来,由于基础条件建设和技术手段等方面原因,很多历史试验信息记录采用纸制、胶片等非数字化方式进行存储,未进行数字化处理工作,装备试验数据安全性、完整性得不到保障。
2)试验数据融合度较低。装备试验数据数量多、规模大、种类全。但是对试验信息资源的体系性建设和集约化应用研究投入太少,装备试验数据信息“孤岛”太多,各种试验信息相对分散、无序、杂乱,缺乏对试验数据的有效管理、应用研究、综合集成和融合再生。
3)试验数据的利用和挖掘程度较低。长期以来,试验信息主要用于试验结果报告编写和简单的存储归档,缺乏试验信息二次及多次开发的必要手段,试验数据利用率低,多层次、多视角的数据挖掘工作开展不够深入,试验数据综合价值和效益发挥不充分。
综上所述,装备试验数据已经满足大数据的基本特征且存在很大的潜在价值,开展装备试验大数据应用研究对于数据的管理、分析和深度挖掘具有重要的军事应用价值。
4 装备试验大数据应用关键技术
4.1 试验大数据存储
由于试验数据资源来源广泛、数据量大、格式不统一,且大多数为视频、图片等非结构化数据,传统的Oracle、DB2等关系型数据库已经远远不能满足试验数据的存储需求。在这种情况和背景下,NoSQL数据库以其自身灵活的可扩展性、灵活的数据模型、与云计算紧密融合的特点成为试验大数据存储的必然选择。它可以支持海量数据的存储管理,弥补了关系型数据库在存储非结构化数据方面的不足和缺陷。在装备试验大数据应用平台架构中,对于已经存储在关系数据中的装备试验基本信息仍然采用关系型数据库进行存储,对于试验过程中产生的半结构化、非结构化数据采用基于NoSQl的云数据库,一方面,可以充分利用平台自身的基础设施服务,提高资源利用效率,另一方面,可以实现对数据的高效管理,从而解决试验任务剧增后海量试验数据量的存储和高并发、低延迟的读写效率。
4.2 试验大数据分析挖掘
在大数据领域中,要想从海量数据中获取到相对有价值的数据信息就需要从多个维度进行分析和挖掘。对装备试验数据而言,试验数据通常都是在试验过程中采集,试验数据的处理对于响应时间没有特别高的要求,因此可以通过数据采集工具将大数据导入专用的数据处理平台进行分析,通常采用基于Hadoop的离线分析架构,从而减小数据格式转换的代价。对于试验数据的挖掘,主要是使用R预言等大数据分析挖掘工具,通过常用的大数据挖掘算法,实现对数据的关联规则和分类、聚类的分析,从多个维度深度挖掘数据之间存在的相互关系,提取有价值信息。
图1展示了基于Hadoop处理架构的数据处理过程。首先将数据拆分成多个Map任务在多台机器上进行并行处理,每个Map任务通常运行在数据存储的节点上,将计算和数据放在一块执行,减小额外的数据传输时间。Map任务产生的中间结果会被分发到多个Reduce任务并在多台机器上进行并行执行,Reduce任务结束后会对中间结果进行汇总,产生最终输出结果。
图1 基于Hadoop处理架构的数据处理过程
4.3 分析结果可视化
依托现有大数据分析挖掘工具和常用算法,根据用户的需求,以仪表盘、驾驶舱等多种方式实现对分析挖掘结果的展现,为试验方案改进提供技术集成和决策支持。
5 装备试验大数据应用总体架构
装备试验大数据应用架构根据试验过程中采集的数据类型的不同,使用不同的数据存储模式和处理方式,对于环境物理场数据、测试数据等实时性要求较高的数据,采用基于Spark框架的内存计算模式,提高处理时效,对于试验资料档案数据等实时性要求不高的数据,采用基于Hadoop框架的离线批处理架构。在数据存储方面,基于HDFS文件存储系统,综合关系型数据库和NoSQL数据库优缺点,对数据进行分类存储。大数据处理框架中包含了多种框架融合计算调度方式,包含离线批处理计算、在线实时分析计算、流式计算等多种计算方式。
大数据应用总体架构为4层结构,主要包括大数据资源层、大数据存储处理层、大数据分析层、大数据应用管理支撑层、大数据应用服务层,如图2所示。
5.1 装备试验大数据资源层
装备试验大数据由于试验项目的复杂性、测量测试装备的多样性,所产生的数据资源种类繁多、结构复杂、数量大,数据资源层主要需要实现对多类异构数据源的采集,构建覆盖试验资料档案数据、环境物理场数据、模型与仿真数据、观测数据、测试数据、计量校标数据、目标特性数据、试验音视频数据的试验大数据资源层,内容涉及到装备的组成结构、工作原理、操作使用、维护保养、故障维修、技术性能和试验环境、试验实时态势、试验勤务保障、试验装备保障等各个方面。
5.2 装备试验大数据存储处理层
装备试验大数据处理层采用分布式计算框架,可以实现对不同计算框架的统一资源调度和管理。根据试验中数据源、数据类型和数据关系的不同采用不同的数据存储服务和存储系统,满足不同数据类型的处理效率,为装备试验数据的高效存储管理提供保证。多框架融合计算调度实现对底层集群硬件资源的统一调度和管理,将CPU、内存通过虚拟化手段形成资源池,实现负载均衡和效率的提升。
5.3 装备试验大数据分析层
试验大数据分析层主要是构建装备试验大数据应用服务的挖掘分析工具及知识库。面向装备试验大数据应用服务领域,对通用数据挖掘工具进行优化改造及并行化实现,为装备试验大数据应用服务提供专用的分析模型库。在装备试验大数据挖掘利用的基础上,辅以装备试验领域知识构建技术,建立知识库模型。
5.4 装备试验大数据应用管理支撑层
应用管理支撑层将实现平台对外的标准化服务注册、封装、调用、开发提供大数据应用支撑平台,为相互逻辑隔离、独立运行的数据提供方和数据使用方创建交互环境。主要包含四个部分:数据安全服务、运营安全服务、数据管理服务、数据服务总线。
5.5 装备试验大数据应用服务层
应用层主要是基于统一的门户,为用户提供报表、即席查询、分发、下载等数据资源服务以及试验数据分析处理等数据挖掘分析服务。另外,应用层还提供数据分析接口和系统功能接口等基础平台服务,便于平台功能扩展及对其他应用功能的综合集成。
图2 装备试验大数据应用总体架构
6 结语
大数据、云计算等技术作为信息领域的重要技术手段,给装备试验大数据建设发展带来了新的发展机遇。本文就装备试验数据的特点及应用现状,结合大数据相关技术,提出装备试验大数据应用架构,可为装备试验数据的应用提供一条有效路径,为其在装备试验领域应用提供参考。