网络信息体系中的信息融合与挖掘技术研究
2016-10-31刘海峰张超罗江林福良
刘海峰 张超 罗江 林福良
随着通信技术、传感器技术、大数据处理技术的快速发展,现代作战指挥与决策越来越多地依赖于对海量战场信息的快速和高效分析和处理,特别地,通过对海量多源异构数据的融合与挖掘,为指挥者提供准确、可靠的情报支持.
而随着信息化体系作战逐渐成为现代化战争的新常态,建立全军网络信息体系将对军队作战能力的提升具有重要意义.网络信息体系的主要特征是“网络中心、信息主导、体系支撑”,其重点是联合作战任务规划和信息资源共享利用,依托全军共用信息基础设施,将各级各类信息系统集成为有机整体.
在网络信息体系的建设过程中,需要重点关注以下3方面问题:
首先,充分利用现有的网络信息系统,通过设计合理的网络信息架构将不同的系统有效地整合起来.现有网络信息系统在各自领域已经发挥了重要作用,推倒重建一个全新的系统代价太大,而且几乎不可能.因此,需要针对现有系统的特点,制定统一的信息系统交互标准,通过交互接口的扩展很容易实现不同信息系统的互联互通,而且,极大地增强了网络体系的灵活性和可扩展性.
其次,注重海量多源异构信息融合在网络信息体系中的应用.网络信息体系涉及各种传感设备、武器平台以及其他信息载体,将战场信息采集、信息传输、信息处理与分发、作战指挥与决策等环节有机地统一起来,形成信息的无缝交互和使用,因此,海量多源异构信息融合处理水平的高低,将直接影响网络信息体系能力的发挥.
最后,通过对信息的深入挖掘,最大提升信息价值.现代战争处于信息时代,战场态势瞬息万变,谁对信息的利用能力强,谁就对战场的把握更加准确,也就掌握了作战的主动性.为提升对作战信息的高效利用,需建立智能化的海量数据挖掘平台,以解决在网络信息体系化作战模式下,作战决策经常面临大规模数量、高频度交互与关联、长时间跨度规划等问题.
针对以上问题,本文着重探讨在网络信息体系作战环境下,海量多源信息融合与挖掘框架、关键技术及发展趋势,为我军全军网络信息体系化建设提供有效借鉴.
1 网络信息体系下的信息融合与情报挖掘框架
1.1 网络信息体系中的信息特征
网络信息体系具备将战场上各种信息进行连通的能力,这些信息涉及地理环境信息、天况、海况、侦察图像、电子侦察信息、各类武器信息、阵地信息、敌方目标信息、我方部队部署信息、指挥决策信息等,使得网络信息呈现出如下特点[1]:
1)数据海量、动态增长
信息化作战中,各种传感器从不同的角度采集各类战场信息,这些信息既包括文本信息,又包括声音、图像、视频等多媒体信息,其数据量非常大,已经远远超出人们的想象,而且,数据是实时获取的,导致数据量是动态增长的.
2)时效性强、更新速度快
随着战场态势的快速变化,采集的信息具有极强的时效性,而且更新速度很快,传统以天、小时为单位的信息更新,在网络信息体系化环境下,信息更新的速度往往以分钟、甚至是以秒为单位,这更加剧了信息的时效性更短.
3)结构复杂、组织无序
网络信息通常按照各侦察方式及信息获取组织为单位进行独立的组织和关联,呈多节点分布式结构,分别存储于不同部队、不同组织、不同层级的服务器上,缺乏集中统一的标准和规范,处于一种无序的状态,而且网络信息是一个动态系统,许多信息随着时间的推移不断更新,处于经常性的变动之中,信息的重迭、消亡无法进行预测,信息的发布具有很大的自由度和随意性,缺乏必要的质量过滤控制和管理机制,信息的质量良莠不齐,对网络信息的有效利用造成严重的负担.
1.2 信息融合与情报挖掘框架
针对网络信息体系下海量数据的特点,为满足对海量数据处理及作战指挥的需求,图1给出了网络信息体系下的信息融合与挖掘基本框架.
框架由5个部分组成:战场感知、数据中心、信息处理、武器平台及指挥所.战场感知涉及多种传感器,如卫星、预警机、侦察机、地基雷达,在网络信息体系下,各传感器之间互相连通,组成网络,实现协同探测、侦察.数据中心存储各类战场信息,为提升安全性、可靠性及信息处理的实时性,采用分布式数据存储方式.信息处理主要是指多源信息融合及情报挖掘,目的是提取准确、可靠的目标信息,为作战指挥提供情报支持.武器平台包括各类导弹、飞机、船舶等武器,与传统信息组织方式不同的是,在网络信息体系下,武器平台不仅仅是信息消费者,而且是信息生产者,其一方面从指挥所和数据中心接收作战命令和目标信息,一方面将武器信息(包括状态、位置等)发送给数据中心,用于后续的作战分析.指挥所是整个作战的核心节点,一方面接收情报信息,一方面发送作战指令,在网络信息体系下也是分布式部署,以便提升安全性.
图1 网络信息体系下信息融合与挖掘框架
2 网络信息体系下的多源信息融合技术
2.1 网络信息融合概念及融合层次
早在20世纪70年代就出现融合的概念,当时有多种称呼,如多传感器或多源相关、多源合成、多传感器混合、数据融合.美国国防部信息融合实验室小组推荐的定义为:信息融合是一个多级、多层面的数据处理过程,主要完成对来自多个信息源的数据进行自动检测、关联、相关、估计和组合以达到精确的状态估计和身份识别,以及完整的态势评估和威胁评估.而网络信息融合指的是将多个互联互通的数据源信息进行关联、分析.
根据数据融合的层次可分为数据级融合(或信号级融合)、特征级融合以及决策级融合.数据级融合是对来自同一个目标的多个信息源的原始数据进行融合,如对同一个目标多次探测的雷达信号直接作加权平均处理.特征级融合首先对各信息源获取的同一个目标的特性信息分别进行特征提取,进而获得该目标特性的特征向量,然后对这些特征向量进行融合,如从探测的目标红外图像中提取目标的特征(如面积、长、宽、质心等),将多幅图像中提取的同一目标的特征进行融合,以提高目标特征检测的准确性.决策级融合首先对每个信息源获得的属性信息分别进行特征提取和属性判决,然后将多属性判决进行融合,以获取目标的最终属性判决,如将多个分类器的结果进行融合,以提高对目标分类识别的可靠性.
图2 决策级融合示意图
2.2 多源信息关联技术
多源信息融合的关键是数据关联,数据关联用于确定对同一目标进行观测的多个传感器所采集的数据集合,是多源异构数据融合非常重要的一步操作.常用的方法包括:最近邻域法、改进最近邻域法、基于近似聚的联合概率数据关联法等.
1)最近邻域数据关联法
最近邻数据关联法是根据设定的距离准则,对于给定待进行关联的数据,与采集的其他所有的数据进行距离计算,如果满足给定的限定条件,那么认为它们是相关的,即认为是对同一个目标的观测值.常用的距离准则有欧式距离法、余弦夹角、马氏距离等.
2)改进最近邻域数据关联法
最近邻域法本质上是一种局部最优的“贪心”算法,并不能保证在全局意义上最优.对于时敏目标,当目标移动轨迹出现交叉时,根据最近邻域法未必能得到正确的关联,在目标密度较大时容易产生关联错误,如图3所示.从图中可以看出,两个量测都落入了航迹1的邻域内,由于j2距离航迹1相对较近,就会出现错误的关联.
为解决该问题,改进最近邻域关联方法采用同时利用最近邻域与目标速度矢量方向比较法相结合的数据关联算法,通过对统计距离和方向两个限定条件的综合判断,可以有效提高在目标较密集环境下的关联准确率.
3)基于近似聚的联合概率数据关联法
改进最近邻域数据关联方法能够有效避免最近邻域法“唯一性”可能造成的关联错误,也能很好地适应密集目标环境下的多目标数据关联.然而,从算法原理可以看出,最近邻域法与改进最近邻域法需要对所有的目标数据进行对比计算,当目标个数、有效量测数增大时,计算量将呈指数增长,很难适应目标信息保障实时性要求.
图3 最近邻域数据关联示例图
为了在较大目标处理容量情况下,既能保证多目标数据关联的准确性与处理精度,同时又能满足打击目标作战实时性要求,为此提出了基于近似聚的联合概率数据关联方法.该方法的基本思想是:设法减少聚中的目标和量测数.在实际应用中,待关联的目标数据与其他数据源并非都是相交的,这些传感器只是存在部分交叠,因此,没有必要从整个探测区域建立确认矩阵,可以通过空域划分法,把探测区域划分成几个不相交的子空域,各子空域内的目标数据存在交叠.如图4所示,给出了3个互不相交的子空域,其中J7所在子空域只有一个数据.
图4 基于近似聚的联合概率数据关联
2.3 基于信号处理与估计的多源信息融合技术
网络信息体系下的多源信息融合关键技术如图5所示,包括基于信号处理与估计的方法、基于统计推断的方法、基于信息论的方法、基于决策论的方法、基于人工智能的方法以及混合多源信息融合方法.
图5 网络信息体系下多源信息融合技术
基于信号处理与估计的多源异构信息融合方法包括加权平均法、最小二乘法、卡尔曼滤波法、小波变换法等.加权平均是最简单的融合方法,其思想就是根据每种输入源的重要性设置相应的权重,然后进行加权和取平均,这种方法简单,缺点是不精确.最小二乘根据给定的目标函数,通过迭代、优化使误差最小或融合结果最优,其不足是对于高维函数往往只能达到局部最优.小波变换是通过引入小波基函数将原始数据变换到不同的频率,然后在不同的频率进行分别融合,最后通过小波反变换得到融合结果[2].
2.4 基于统计推断的多源信息融合技术
基于统计推断[3]的多源异构信息融合方法包括经典推理、贝叶斯推理、证据推理、随机集理论及支持向量机理论等.基于证据理论的多源信息融合是近年来常用的方法,能够解决多分类器不一致以及多次测量不统一的信息融合问题,同时,对于证据冲突的问题,也提出了相应的解决方案,包括引入新的冲突度量系数;通过在融合流程中增加智能判断环节,以冲突系数为判断依据;对具有不同冲突系数证据选择不同组合规则进行证据组合的融合方法.在基于统计分析的多源异构信息融合方法中,动态聚类分析是多元统计分析的主要方法,其基本思想是,开始按照一定的方法选取一批凝聚点,然后让样本向最近的凝聚点凝聚,这样由点凝聚成类,得到初始分类.初始分类不一定合理,然后按最近距离原则进行修改不合理的分类,直到分类比较合理为止,这样形成一个最终的分类结果.
图6 基于D-S证据理论的融合
2.5 基于信息论的多源信息融合技术
基于信息论的多源异构信息融合方法包括熵方法[4]、最小描述长度方法等.熵方法常常用来确定待融合的多个传感器在融合中权重系数,其基本原理为:如果某个传感器对数据融合所起的作用越大,那么表明该传感器携带和传输的信息越多,其熵权越大,即其在融合中的权重越大.例如,在先验信息融合方面,最大信息熵法根据先验信息的最大信息熵来确定合适的先验分布,由于信息熵是表示随机不确定性的度量,因此,由最大的先验信息确定的先验分布具有最大的可信度,然而,基于最大信息熵的先验分布计算过程非常复杂,并且计算复杂性随着先验信息量的增大而急剧增大.
2.6 基于决策论的多源信息融合技术
基于决策论[5]的多源异构信息融合方法一般应用于高级别的决策级融合,其基本原理是根据融合的目的先设置一定的决策准则,然后计算使得决策准则最优时得到融合结果.基本决策准则有Laplace准则、Wald最大最小值准则、Savage最大最小后悔准则等.决策融合分为串联决策融合和并联决策融合.串联融合是在有多级操作的每一级进行决策,而并联决策融合是在多个操作结果出来之后统一进行决策.
图7 决策信息融合结构
2.7 基于人工智能的多源信息融合技术
基于人工智能的多源异构信息融合方法包括模糊逻辑[6]、人工神经网络、遗传算法、基于规则的推理、专家系统、逻辑模板法及品质因数法等.人工神经网络是基于现代神经生物学和认知科学在信息处理领域应用的研究成果,具有大规模并行模拟处理、连续时间动力学和网络全局作用等特点,有很强的自适应学习能力,可以避开模式识别方法中建模和特征提取的过程,并实现实时识别,以提高识别系统的性能.与传统的贝叶斯方法比较,基于模糊积分的多源异构信息融合方法用模糊积分融合不确定的多源信息时,可以分析和处理多源的不确定信息,它不需要概率的先验信息及其概率分布,克服了证据组合理论融合方法中的证据难于获得,计算量大等问题.基于粗糙集理论的多源信息融合方法,可对不完整和不确定的数据进行分析,剔除相容信息,抽取潜在有价值的规则知识,解决了数据超载和不完整的信息融合问题.
2.8 基于混合的多源信息融合技术
由于单一的融合方法往往不能得到满意的融合结果,因此,在网络信息体系下常常将多种融合方法结合起来进行数据融合处理.比如,将证据理论与人工神经网络[7]结合进行目标识别,为解决证据理论中基本可信度分配的难题,充分发挥神经网络的自学习、自适应和容错能力,利用其泛化能力得到证据对待辨识目标的基本可信度的分配,再利用D-S证据理论进行融合,从而得到最终的目标识别结果.
3 网络信息体系下的情报挖掘技术
3.1 网络信息挖掘概念
传统的数据挖掘(Data mining)指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.提取的知识表示为概念、规则、规律、模式等形式.
而在网络信息体系下,战场海量多源异构数据挖掘是在传统数据挖掘的基础上,增加了解决数据量大、挖掘速度慢、数据种类多、适用军事情报数据特征等问题的各种技术,从而形成与传统数据挖掘不同思维方式的一类技术,如为解决非结构化数据的存储问题,提出采用非结构化数据库进行存储的方案,为解决挖掘速度慢的问题,采用云计算的方法(如Hadoop、Spark).战场海量数据挖掘的应用主要有关联性分析、聚类分析、分类、预测、偏差分析等,主要技术如图8所示.
战场海量数据挖掘的研究主要集中于异常检测(包括数据异常、行为异常等)、目标特征挖掘(包括单目标特征、群目标特征等)、目标检测与识别、情报信息分类与聚类、航迹预测、态势分析及预测、威胁估计等.
3.2 偏差分析技术
偏差分析包括孤立点检测[8]、异常检测、特异数据检测等,其中,异常情报数据的挖掘在打击目标中是一项非常重要的任务,对于发现稍纵即逝的战场机会具有重要意义.挖掘异常数据的技术主要包括关联性分析、离群点检测、聚类分析等.如聚类分析通过对异常数据的挖掘,为快速掌握敌方的异常动态提供了依据和手段,从而为制定作战决策争取宝贵的时间.特异数据是存在于数据中的与其他大部分数据之间的差别非常大的少部分数据,而特异规则就是隐藏在这些特异数据当中的有趣的规则,通过挖掘特异数据,可以获取隐藏的、很少出现的规则或模式.图9给出了多种孤立点检测算法的对比结果.
图8 网络信息体系下的情报挖掘技术
3.3 关联分析技术
在进行模式分析与挖掘方面,多源异构数据的关联规则是最常用的一种技术,该技术通过统计多源异构数据中频繁出现的数据之间的关系,提取频繁出现的模式或规则,进而得到有价值的情报信息.常用的关联规则方法包括Apriori算法[9]、基于频繁模式树[10]等.关联规则算法一般是设定支持度和可信度,算法自动实现关联规则的挖掘,从海量数据中提取挖掘结果,图10给出了关联分析的示意图.
关联规则测度指标包括:
1)支持度(Support):属性数据集D中有S%的属性同时包含属性集X、Y,且X∩Y=∅,S%称为关联规则X⇒Y的支持度.
2)置信度(Confidence):规则X⇒Y在属性数据库D中成立,其中属性数据库D中X∪Y以及X的频数之比称为置信度.
置信度代表的是关联规则的可信程度,属于先验概率,即在D中属性集X出现的前提下项集Y出现的概率.
图9 经典孤立点检测算法对比
图10 关联分析示意图
3)相关度(Correlation):对于属性集X与属性集Y,如果存在P(X∪Y)=P(X)P(Y),则X与Y是互相独立的,否则X与Y是相关的.
若相关度等于1说明X与Y的出现相互独立;相关度大于1说明X与Y是正相关的;相关度小于1说明X与Y是负相关的.相关度度量方法在关联规则学习过程中能够过滤掉无趣的关联规则,提高关联规则的可靠性,但缺点是属性数据集总量的大小对于属性集X与Y的相关性有很大影响.
4)余弦夹角(Cosine):利用向量夹角余弦公式计算属性集X与Y之间的相似性,减少了相关度度量中属性数据总量对于属性集之间的相关性影响.
3.4 聚类分析技术
聚类分析[11]根据最大化同类间的相似性、最小化不同类之间的相似性的原则,使用各种聚类算法进行分析,以发现数据的内在模式及可能的数据属性之间的相关关系,从而获取潜在的规律.基于聚类技术的挖掘方法,包括k-均值聚类[12]、k-中心点聚类、模糊C均值聚类[13]、分层聚类等.聚类分析可以从海量的数据中将情报数据自动划分为不同的类别,并提取出各个类别的特征,从而挖掘隐藏的情报信息.
聚类将使得相同子集中各元素间的差别最小,而不同子集中各元素间差别最大,聚类算法通常是建立在各种距离基础之上的,如欧几里得距离、曼哈顿距离以及马氏距离等.
1)欧几里得距离
在n维空间中,欧几里得距离定义为:
2)曼哈顿距离
曼哈顿距离又称为城市区块距离,也就是欧几里得距离空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和,公式如下:
3)马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,表示数据的协方差距离.与欧氏距离不同的是它考虑到各种特性之间的关系,并且是尺度无关的.对于一个均值为µ =(µ1,···,µn), 协方差矩阵为A的多变量向量x=(x1,···,xn),其马氏距离为:
3.5 分类技术
分类是在已知目标特征或事先确定要划分类别的数目时,对获取的多源异构目标数据进行分析,从而将目标划分到现有的类别中,进一步,确定目标对象的特性.该方法特别适用于那些在已知目标的某些特性的条件下,根据已建立的匹配规则或分类模型,通过将获取的情报数据,与相应的目标特性进行比较或计算,从而得出目标是否出现模型特性,实现目标分类识别.常用的分类技术包括:C4.5、ID3、BP神经网络、遗传算法、模拟退火等,图10给出了BP神经网络的原理图.
图11 神经网络原理图
3.6 预测技术
预测技术是在现有数据分析的基础上预测未来的数据趋势,可以用于对战场态势的预测、船舶的移动轨迹预测等.常用的预测方法包括基于线性回归、逻辑回归、决策树[14]、神经网络[15]及通过时间序列搜索出发生概率较高的模式时间序列分析方法等.
在网络信息体系下,海量多源异构数据挖掘不仅可以利用对采集的原始数据进行情报挖掘,而且对于融合数据也可以进行情报挖掘.例如,基于多源异构融合数据的目标特性挖掘技术,对于掌握目标的特性具有重要意义.目标特性包括图像目标特性、雷达目标特性[16]、微波目标特性、可见光目标特性等,对于不同类型的目标特性具有不同的提取技术,包括基于图像的目标特征提取[17]、基于雷达信号的电磁特性分析等.基于多源异构融合数据的目标检测与识别技术用于对目标的提取,包括支持向量机[18]、神经网络、遗传算法[19]、决策树[20]、贝叶斯网络[21]、奇异值分解、D-S证据理论[22]等分类方法.基于多源异构融合数据的情报挖掘技术为联合作战提供情报保障已经成为当今军事行动进行情报提供的主流方法.
图12 支持向量机示意图
图13 基于“云+端”的信息融合与挖掘
4 网络信息体系下的信息融合与情报挖掘技术发展趋势
在网络信息体系下,未来的多源信息融合与挖掘将会有如下趋势:
1)基于“云+端”的信息融合与挖掘将成为主流
在云平台架构下,各层信息服务平台通过即插即用的方式接入云平台,通过互联互通,能够迅速地共享各类资源.而且,武器平台和各类传感设备由纯粹的信息消费者,向既是信息消费者又是信息生产者的角色转变.信息的融合与挖掘不仅存在于各层信息服务平台,而且在信息获取前端也包含大量的信息处理操作,从而极大地提升了信息获取的质量以及减少后端由于采集信息的鱼龙混杂而导致情报提取的不准确性和不可靠性.
2)由以“业务为中心”转向以“数据为中心”
传统的多源信息融合与挖掘根据业务的不同对数据进行相应的重组织,再进行融合与挖掘,造成大量的数据重复存储和分析,浪费资源,也导致数据的严重不一致性.在网络信息体系下,将转变为以“数据为中心”[23],按照数据的来源、类型进行分布式存储,不同的业务按照对数据的需求,从不同的数据库中读取相应的数据,而数据的分布与订阅可以通过分布式数据分发平台,不同业务分析的数据结果可以为其他业务所应用,这样既能够保证数据的一致性,又提升了业务的处理效率,避免不同业务产生矛盾的结论,为保证作战决策的正确制定提供可靠的数据支撑.
图14 以数据为中心的总体架构图
3)情报信息的维度更高和深度更深
随着探测技术手段的丰富,能够获取大量关于战场的多类别探测信息源,利用这些信息也进行了多源信息融合与挖掘,然而,对于网络信息化战争,现有的情报保障远远不能满足作战需求,一方面,需要通过多源信息融合进一步扩展对目标情报信息的维度,以便更全面地对目标进行了解,另一方面,对获取的海量侦察数据缺乏深入的分析和挖掘,难以发挥海量侦察情报的最大优势,有必要进一步提升海量侦察情报数据的利用价值,为网络信息化作战提供更丰富的、潜在的情报信息.
图15 信息扩维示意图
5 结论
网络信息体系在未来的战争中将越来越重要,它给战场信息的综合处理带来了新的视角.本文探讨了网络信息体系下需要关注的信息问题,给出了网络信息体系下多源信息融合与挖掘的整体框架,并对网络信息体系下多源信息融合与挖掘的关键技术进行介绍,最后,展望了网络信息体系下多源信息融合与挖掘的发展趋势.