作战目标数据质量评价体系和模型构建∗
2019-12-26贺文红
贺文红
(海军装备部 北京 100071)
1 引言
作战数据质量评价是作战数据工程建设与实践应用的重要组成部分。随着我海军战略从近海防御向远海防卫跨越式的调整,在军事作战和演习过程中,作战海域范围将明显扩展,作战环境更为复杂,海战场的作战面积广阔,敌我双方的作战单位分布稀疏,交战距离多发生在视距外,同时还存在需要使用声呐进行探测的水下战场。因此海战场上的作战单位自身不仅需要具备探测目标的能力,还需要具备自主计算分析和超视距协同作战的能力。复杂战场环境下,各种干扰层出不穷,如有源电子干扰、反辐射导弹、隐身与反隐身技术等等,此外,大量的背景噪声和测量误差的存在,使得测量系统获取的目标数据带有大量的模糊性和不确定性,为构建目标特性数据库以及目标特性数据库的数据质量带来严峻的考验[1,4]。
2 作战数据评价体系建设需求
2.1 预警探测目标识别精准化需要
未来信息化战争中,对前端探测设备探测目标的精准需求越来越突出,而作为支撑目标识别的探测目标特性数据库建设显得尤为重要。海战场环境复杂而多变,仅仅依靠当前实时探测信息已无法满足作战需求,通过目标特性数据库进行匹配分析识别,其识别结果的可信度依赖于目标特性数据库的数据质量。
2.2 多源异构情报数据综合识别能力需要
依据海战场目标来源的特点将目标特征数据分为三类,分别包括探测获取数据、计算获取数据、情报获取数据。探测获取数据主要包括雷达、声呐、红外、电子战、卫星目标等需要通过传感器设备探测获取的目标数据,主要包括目标的运动特征数据,声光电特征数据;计算获取数据主要包括作战系统、传感器系统根据自身接收到的探测数据、导航信息以及其他作战信息计算出的数据,主要包括目标数据,电子对抗特征数据、辐射特征信息、历史航迹轨迹信息等信息;情报获取数据主要包括其他作战节点、岸基指挥所通过数据链通过指挥文电发送的目标动向信息、敌情信息。
2.3 目标特性数据库形成有效产品需要
目标特性数据库的建设和管理对目前我军提升现有装备作战效能有着非常重要的作用。为了保障目标特性数据库的发布和共享,支撑目标特性工程建设任务,需要提出一套权威可行的目标特性数据质量评价体系作为目标特性数据库的信息数据质量评价的原则、准则、流程、指标和方法,最终形成支撑数据产品的生产和评估[1]。
3 美军作战数据质量评价体系现状分析
美国等西方海军强国,长期高度重视数据库及其数据质量建设,各国对非合作目标特性的获取和研究都非常重视,特别是美、俄等军事强国,起步早,投入大。如苏联早在20世纪50年代专门研制用于侦测非合作目标物理场特性的测量装置,布放于一定的水域,记录大量的非合作目标物理场数据,美国经常在海上投放浮标或建造测量船,侦察非合作目标特性数据,正是对于非合作目标的充分了解,美国对一些国家的潜艇能做到单个识别,英国某型水雷经过精心的引信设计专攻特定目标。在数据库建设方面,美军为了建立数据共享基础设施,国防部早在20世纪90年代就启动了数据工程,创建了国防数据词典系统(DDDS)、数据共享环境(SHADE)和联合公共数据库(JCDB),为美军在C4I系统之间实现数据重用和数据共享奠定了基础。联合公共数据库是多个数据库的公共部分,综合了国防情报局(DIA)军事情报数据库(MIDB)中有关敌军的信息以及海、空军数据库中有关联合作战的部分信息。该数据库是用于支持三军共享的基础数据库。此外,在联合公共数据库的体系结构下,美国每年都投入大量经费建设业务数据库。目前已在世界各大洋及中国周边海域建立了海洋环境立体监测系统,搜集、调查海洋环境参数,开展海洋环境特性方面的研究工作,已具备全球和局部海域的多尺度、多要素业务化保障能力,并建立了相当规模的数据库系统。如海洋学和气象学数据库(OAML)、声学数据库、美国国家气象资料中心(NCDC)海洋气候数据库、舰队任务规划地球物理数据库系统(GFMPL)等。依托上述数据库建设,采用多种(类)技术、手段和装备来增强舰艇编队的目标识别能力,海湾战争结束后,美国专门成立了联合目标识别计划办公室,组织和指导建立以信息融合为核心的C4I系统。已装备的识别系统达百余种,如非合作性目标识别(NCTR)、多传感器目标识别系统(MUSTRS)、作战识别(CID)、联合战斗识别(CCID)等。其他西方国家也研制出一批具有代表性的系统,如英国的飞机敌我识别系统(ZFFF)、欧洲的BETA系统(战场维护与目标探测系统)等[1,3]。
4 作战数据质量评价体系和模型构建
4.1 作战数据质量评价体系构建
由于作战数据来源于不同系统间作战数据的有效集成,各子系统在数据存储、传输与集成过程中,必须符合某种评估指标,形成统一标准,再经过数据清洗剔除无关数据或坏数据,确保作战数据的有效性与可靠性。静态作战数据质量主要是作战数据质量本身所固有的、本征指标,即上述所提到的评估标;而动态作战数据质量主要是从作战数据的整个生命周期来展开研究的,是作战数据在实际应用中数据质量的价值体现,包括作战数据的采集、传输、存储、处理、集成、使用和开发质量,每一个环节的质量高低都直接关系着整个作战数据质量的好坏,都会直接或间接的影响着整个作战的结果[2]。作战数据质量评估指标体系如图1所示。
图1 作战数据质量评价指标体系
图2 作战目标数据质量评价体系总体框架图
在数据质量评价体系方面,以美国麻省理工学院、美国国防部为代表的研究机构,建立数据质量评价和管理的综合数据质量管理体系(TDQM),以及数据质量管理成熟度模型。TDQM是以“计划-执行-检查-处理”(PDCA)管理过程4阶段循环方式为基础,其主要特点是专注于数据质量的目标达成和过程控制[3,6]。
4.2 评价体系总体方案
依据目前数据质量评价的基础研究,结合目标特性的特点,采用“面向场景动态评价、面向对象个性定制”的设计思想,从数据质量问题的产生环节着手,建立全过程评价指标。根据评价结果,推动目标特性数据库的建设管理;依据数据清洗,推动前端数据产品的生产为目标综合识别和武器打击提供信息保障需求[6,9]。
结合目标识别和武器打击的军事要求,对目标特性数据信息要素进行提取获得物理特性、运动特性、光/电/声特性、易损性等度量指标;针对探测数据、计算数据、情报数据制定不同的原则和准则。在此基础上,结合目标特性要素,构成混合式的评价流程模式;同时分析外部环境对目标特性数据的影响,选取适应的评价指标。
依据前期分析目标特性的原则/准则/流程/指标,依托大数据平台,对提取的目标特性要素数据进行评价方法适配并进行评价;同时结合专家知识库的评价,形成目标特性数据库信息的综合评价。
最后通过目标特征数据产品库对各类目标的识别程度,进行数据质量的总体评价,促进目标特征数据产品库的建设完善及后续产品发布。
通过建立目标特性数据信息的数据质量综合评价和总体评价构成对目标特性数据的数据质量评价全要素全过程覆盖。
4.3 作战目标数据质量评价流程
数据质量评价流程,实际是针对数据质量问题的生成过程进行评价。
为了实现保证全面数据质量分析,多层次评估数据质量性质,我们提出了如图2所示的混合型数据质量评估分析模型。
通过这种多层次的多维度指标的评估准则,可以建立完善的针对不同场景的目标特性数据质量的数据质量评估流程模型。
数据质量问题包括单数据源和多数据源。单数据源分析更多处理单个数据集合的数据质量分析问题,多数据源分析问题满足本项目要求的数据多样化融合的要求。
4.3.1 单一数据(源)的评价流程
单一数据(源)的评价流程研究主要是针对单一数据或单一数据源本身的评价流程进行分析,建立不同类别的评价流程模式,构筑整体目标特性数据质量评价流程的基石。
4.3.2 多数据(源)的评价流程
多数据(源)的评价流程研究主要是针对数据与数据之间以及不同来源数据之间的评价流程进行分析,建立综合评价流程模型,形成目标特性数据质量评价流程范式。
图3 作战数据质量评估流程图
4.4 作战数据质量评价模型构建
4.4.1 基于矩阵式的目标特性数据质量评价指标模型
作战目标数据质量可以从数据源质量、数据可用性、数据内容、数据管理、数据价值等几个维度指标上进行质量的评估。考虑到在不同场景、不同类型的目标特性数据存在着较为明显的差异,因此需要研究出一套基于多维度指标的矩阵式的目标特性数据质量评价指标模型。该模型可以完成对目标特性数据质量的指标确定,提供权威的数据质量评价结果支撑[4~5]。
考虑到在不同场景、不同类型的目标特性数据存在着较为明显的差异,对于数据质量评价也随之不同。因此需要研究出一套针对这类特点的评价指标模型,称之为基于矩阵式的目标特性数据质量评价指标模型。该模型可以完成对目标特性数据质量的指标确定,提供权威的数据质量评价结果支撑。模型示意如下:
Ak表示某类目标的评价指标集,aij表示在i项条件下,第j项指标的是否可用。
4.4.2 基于有监督模式识别的数据质量总体评价模型
数据质量是“满足应用需求的程度”,目标特性数据库的建立主要是用于目标识别,因此需要针对经过目标特征原始数据库信息筛选而获得的目标特征产品数据库的数据质量进行总体性评价,通过某类个体的目标特征信息在目标特征产品数据库识别后得到识别结果的程度,对整个数据库的数据质量整体进行评价研究。先用一组已知类别的化合物作为训练集,建立判别模型,再用建立的模型根据相似性原则来对未知样本进行识别,称为判别分析。判别分析是在事先知道类别特征的情况下建立判别模型对样本进行识别归属,是一种有监督模式识别。
目标特征数据库中一共有n个个体实例,可以表示为S={D1,D2,…,Dn},其中Di为每一个个体实例,该对象中一共有mi个特征,可以表示为Ci={<K1,V1>,<K2,V2>,…,<Kmi,Vmi>}。
其中,K表示该特征的属性,V表示该特征的值,由于获取信息存在不全面,每个个体的mi可能是不一样的。
BP神经网络是一种基于有监督的学习,使用非线性可导函数作为传递函数的前馈神经网络。
BP神经网络由输入层、隐含层、输出层组成。以多属性指标训练数据作为神经网络的输入,训练过程分为网络输入信号正向传播和误差信号反向传播,按有监督学习方式进行训练[7~8]。
图4 BP神经网络结构图
step 1:相邻层之间结点的连接有一个权重Wij;
step 2:每一个神经单元都有一定量的能量,我们定义其能量值为该结点j的输出值Oj;
step 3:除输入层外,每一层的各个结点都有一个输入值,其值为上一层所有结点按权重传递过来的能量之和加上偏置;
step 4:除输入层外,每一层都有一个偏置值,其值在[0,1]之间;
step 5:除输入层外,每个结点的输出值等该结点的输入值作非线性变换;
基于神经网络的回归分析,根据全局误差极小来判定学习完成,从而确定网络结构参数。
根据样本数据训练得到的权值参数,对新的目标特性数据进行质量评估,可以对最终的数据质量评估设置一个阈值,在神经网络中输入目标特性数据多维度评价指标的数值,自适应地利用神经网络学习,从模型的输出得到目标特性数据的评价结果,根据设置的阈值可以初步评估该数据的质量。
4.4.3 大数据环境下的数据质量评价模型
在大数据环境下,对于矩阵式的数据质量评价指标模型,针对不同场景维度,需要对多维度指标引入权重要素并研究自适应调整上述指标权重的方法;针对目标特性数据源的特点,开展基于时空序列数据、关联数据、多源异构数据等数据质量评价方法研究,建立融合情境与类别的评价方法体系,支持精准化和个性化的数据质量评价,提供更为准确的数据质量评估。
面对海量的目标特性数据资源,数据质量评价同样面临着大数据带来的挑战。对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据为数据质量评价问题带来了存储、计算和通信方面的挑战,这与大数据在其他领域带来的挑战具有共性,而同时由于数据质量评价方法的独特性,大数据对这些方法的可扩展性带来了独特的挑战。
并行与分布式是解决大数据问题的主要思路,并行计算(Parallel computing)是指同时使用多种计算资源解决计算问题的过程,而分布式计算(Distributed computing)则是将计算过程分配到集群中的不同节点执行。大数据问题在工业界已经存在比较成熟的解决方案,一些大的互联网公司和组织构建了一系列的基础架构,比如Hadoop、Spark和Kafka等项目,结合这些技术和数据质量评价问题我们构建了大规模数据质量评价的方法。大数据具有以下四大特征:数据量大、数据类型繁多、流动速度快、价值密度低。针对大数据质量评价数据访问量大和大数据本身的“海量化”特性,我们设计分布式存储访问系统以满足数据存储和快速访问的需求。针对大数据“多样化”的特性,拟采用多维度关联分析实现数据的统一管理和使用。针对大数据“流动速度快”的特点,拟采用流式数据处理框架(比如Apache Storm)实现数据传输过程不落地进行实时数据质量评价。针对数据“价值密度低”的特点,拟采用PCA等降维方法去除数据噪音保留关键属性[9~10]。
以大规模序列数据质量评价为例,基于概率后缀树模型进行数据质量评价的方法难以实现对大规模数据的处理,而基于Apache Spark平台的STALK算法能够利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。
因此基于当前已建立的大数据处理平台和并行与分布计算的思路,可以构建多种面向大数据的数据质量评价方法,应对大数据对数据质量评价带来的挑战。
4.4.4 基于专家知识库的数据质量评价模型
在目标特性数据库的数据质量研究中,不可缺少专业背景知识的支持,不可脱离领域知识实现数据质量评价。开展基于专家知识库的数据质量评价方法研究主要基于专家知识面向数据质量工作构建专家知识库,通过定量指标阈值、逻辑组合和推理,以及定量指标的语义化规范表达等方式进行评价。
知识库系统是知识管理的工具和平台,借助于这个平台,各单位、部门可以更好的进行经验的积累、组织间的学习、知识的更新和共享,提高对不同数据生成场景下的应变能力。“知识库”不仅仅是狭义的存放知识的机构,它同时包括了知识库的管理系统、用户接口、知识获取接口等部件,相当于一个知识库系统平台。平台上的应用服务包括数据集成、数据挖掘、数据质量在线分析等[11,13]。
数据集成和数据挖掘,按一定规则共享或合并分布在各个主体数据库的信息,系统化、有序化进行分类存储,用户可按不同的需求提取平台数据库中的信息。数据质量在线分析以平台数据质量知识库为支持,把智能技术引入事故的分析处理工作中,重组基于平台的数据质量处理流程,用户可实现事故处理的在线专家支持。用户把数据相关信息录入,在平台质量控制设置知识库的支持下,完成数据质量的初步分析,最后再根据特定的要求进行相应修订和调整,并为用户提供数据质量报告的参考方案。质量管理原则中提到:基于事实的决策方法,即对数据和信息的逻辑分析或直觉判断是有效决策的基础。要对数据进行分析判断,首要的问题就是要解决大量数据和信息的收集问题。因此,对分布在各责任主体内部的广泛质量信息的采集是质量控制平台的基础。数据集成就是共享或者合并两个或多个应用间的数据,平台中的数据集成是平台质量信息采集的实现方式。数据分布的各个主体,其内部管理信息系统的结构、平台各异,交换的数据结构、格式和要求也不一样,要实现各主体间的数据信息交换、共享和集成,拟通过XML实现数据库之间的数据交换。除了平台主体的相互交互外,平台上的数据仓库和数据集市也以同样的方式向平台内的各责任主体采集和调用后期进行数据挖掘所需的数据[12~13]。
大量广泛的数据集成到了平台上的数据仓库中,数据的丰富带来了对强有力的数据分析工具的需求,决策者迫切需要从海量数据中提取有价值的信息和知识。有针对性地进行数据提炼,数据挖掘技术在一些事实或观察数据的集合中寻找模式的决策支持,发现模型和数据间关系;统计一定时期内质量验收合格率、优良率统计信息,也是为了把握质量发展的整体趋势。知识库通过数据集成,把数据和信息从不同的数据源取出来,然后转换成公共的数据模型和数据仓库中已有的数据集成在一起,当各责任主体和用户按不同的需求进行数据的分析挖掘时,需要的信息已经准备好了,数据冲突、表达不一致等问题得到解决,这使得各主体的决策查询更容易、更有效。
基于知识库的质量分析处理流程的目标,是质量责任主体将数据信息输入计算机,质量处理知识库系统自动分析数据质量,并提供相关的处理措施,达到智能化的专家支持。数据质量的知识推理是知识库依据对质量的定量和定性的描述而推导出结论的过程[14]。
5 结语
数据质量评价的指标计算、获取难度大,对于数据质量评价在不同环境下的理论方法的研究程度并不相同,需要进行全局的综合考虑;采用多层次数据质量评价体系,进行统一的形式化定义,采用有监督模式识别、专家知识库体系与BP神经网络理论相结合的方法对作战数据质量进行评估。在评估模型构建上,依次确定评估指标,组建评估网络。该方法增强了评估的科学性与客观性,评估误差性较小,评估模型与评估方法简单实用。