大数据技术研判不明空情
2020-10-20宋根阳李宏权
宋根阳,李宏权
(1.空军预警学院,湖北 武汉 430019;2.解放军93498部队,河北 石家庄 050000)
0 引 言
随着国家低空开放以及无人机的大量涌现,社会飞行活动频繁,“黑飞”现象频发;重要地区周围的电磁环境日益恶化,电磁频谱日益拥挤,电磁干扰特性复杂;边境、海岸线及气象条件多变,导致雷达杂波动态多变,易产生“仙波”、幻影回波等。这些目标环境的新变化使得不明空情信息时敏性极强,动态变化更复杂。大数据技术拥有其独特的优势,不在乎数据的规模结构、不再一味追求因果关系,而是注重利用全数据关联分析,注重利用数据间的相关关系,使分析决策更加高效、准确、智能。大数据技术改变了数据使用方式以及解决问题的方法视角,给预警情报分析带来新的机遇。大数据模式通过以大数据为核心技术的数据挖掘、知识发现等,准确把握事物规律,预测目标运动、空中态势的发展变化等复杂问题,为空中目标活动规律分析模式转变提供契机和可能[1-2]。
1 不明空情大数据研判系统的基本构造
利用大数据技术开展不明空情研判,首先是利用云平台进行空情信息采集、整理,积累空情大数据,将雷达、侦察、民航、气象、公安等信息加以汇聚融合,经过集成、清洗、转换等一系列处理后,形成供大数据挖掘分析的基础,交云平台对其进行数据存储管理,并形成数据目录、数据服务和元数据服务;然后抽取符合需求的数据进行格式转换,运用大数据的深度挖掘、关联分析等技术,进行目标特性分析,构建研判识别证据库,最后通过模板匹配、事件关联、综合分析等技术实现不明空情的研判识别与威胁等级评估,为决策人员提供空情研判决策依据。系统整个信息处理流程如图1所示[3-4]。
2 空情大数据收集整编
不明空情大数据研判识别所需数据除了雷达情报外,还需要气象、侦察、公安等情报数据作为支撑,因此在收集雷达情报的基础上,还需要实时引接汇聚国家气象局、体育总局、公安部、民航局、中科院等部门的多源情报数据。
由于不同数据源所采用的数据格式、度量单位、属性描述等不一定相同,因此需要经过筛选、集成、清洗、规约等一系列处理,才能得到相对完整准确的数据。但也有一些数据属性还需要人工整编才能得到进一步完善。
2.1 数据收集方法
以雷达数据收集为例,需要收集的数据包括雷达装备工作状态参数、工作环境数据、原始视频数据、原始航迹数据、综合航迹数据等。
一是雷达装备工作状态参数,包括雷达工作频率、功率、极化方式、调制方式等。这些参数有的保存在视频数据中,有的需要人工记录。
二是视频数据,包括雷达原始视频数据、1 Bit检测视频数据以及雷达改造后的IQ视频数据。视频数据包含有效距离采样点数、有效距离、处理脉冲数、雷达工作模式、脉冲宽度调制参数等。部分雷达的视频数据保存在记录仪中。视频数据可以用来提取目标回波波峰、波宽等特征。
三是航迹数据,包括原始航迹和综合航迹,可以用来分析目标的活动规律。原始航迹数据中包含信息源代号、目标的批号、时间、方位、距离、高度、属性、目标威胁等级、干扰方位、干扰指向、干扰强度等要素。综合航迹数据包括信息源代号、批号、时间、经度、纬度、高度、属性、机型、架数、任务、国别等。部分雷达的原始航迹数据保存在记录仪中。综合航迹保存在信息系统的数据库中。
四是无源雷达侦收数据,包括无源雷达航迹数据(批号、距离、方位、时间、识别结果等)、侦察参数数据(批号、航迹起始终止时间、识别结果等)和原始视频数据(目标辐射源视频采集数据及目标批号、采集时间等信息)。这些数据保存在*.mdb文件中。
对于视频数据、航迹数据和无源侦收数据的收集,可以采用人工或自动方式收集。当雷达信息系统、无源站系统和云平台处于连接状态,则可以通过设置权限,利用提取、转换、装载(ETL)来自动收集数据库中的数据,这种情况对收集策略以及网络带宽有较高的要求;当处于不连接状态,则可以通过在记录仪、数据库服务器上外挂存储设备定期收集数据,再将存储设备与云平台连接,导入数据,这种方式需要大量的人力物力作为支撑。
数据收集时或之后要进行数据筛选。如在进行综合航迹数据收集时,可以重点收集容易导致不明空情的目标航迹数据,对于民航等目标的数据可以少收集一些。在收集原始视频之后,如果已有重点目标开窗数据,则直接收集。对于一般的视频数据,则先进行格式解析,再提取其中重点目标的回波数据。
2.2 情报数据整编
一是人工建立相关联系,数据整编主要是在数据集成、数据清洗、数据规约等一系列处理之后,还需要应用人工方式进行数据属性补充、相关关系建立等的操作。如航迹数据中机型属性缺失,采用其他方式都无法补充完善的情况下,只有采用数据整编的方式进行补充。比如统一目标在同一天不同时段飞行的航迹采用了不同的批号,这也需要采用人工的方式使不同时段航迹建立相关关系。
二是整编界面人性化,数据整编是采用人工方式进行的,所需工作量比较大,也很重要,如果不补充完善,很可能导致挖掘结果的不完善。因此在设计数据整编界面时,尽可能人性化,能够充分展现数据的属性特性,同时也需要熟悉数据特点和分析业务需求的人员来进行。
2.3 数据集成方法
常见的数据集成方法有模式集成法、数据复制法,以及融合了模式集成法和数据复制法优点的综合性集成方法。
一是模式集成法,在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模型透明地访问各数据源的数据。全局模式描述了数据源共享数据的结构、语义及操作等。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求,转换成各个数据源在本地数据视图基础上能够执行的请求。模式集成方法的特点是直接为用户提供透明的数据访问方法。采用模式集成需要解决的问题:首先是构建全局模式与数据源数据视图间的映射关系;其次是处理用户在全局模式基础上的查询请求。联邦数据库和中间件集成方法采用现有的2种典型的模式集成方法。
模式集成方法为用户提供了全局数据视图及统一的访问接口,透明度高;但是该方法并没有实现数据源间的数据交互,用户使用时经常需要访问多个数据源,因此该方法需要系统有很好的网络性能。
二是数据复制法,是将各个数据源的数据复制到与其相关的数据源上,并维护数据源整体上的数据一致性,提高信息共享利用的效率。采用数据复制法需要解决数据异构性问题,包括语法异构和语义异构。数据异构性可以追溯到数据源建模时的差异:当数据源的实体关系模型相同,只是命名规则不同时,造成的只是数据源之间的语法异构;当数据源构建实体模型时,若采用不同的粒度划分、不同的实体间关系以及不同的字段数据语义表示,必然会造成数据源间的语义异构,给数据集成带来很大麻烦。对于语法异构,需要实现字段到字段、记录到记录的映射,解决其中的名字冲突和数据类型冲突。语义异构集成相对比较麻烦,需要字段拆分、字段合并、字段数据格式变换、记录间字段转移等。
数据复制方法在用户使用某个数据源之前,将用户可能用到的其他数据源的数据预先复制过来,用户使用时仅需访问某个数据源或少量的几个数据源,这会大大提高系统处理用户请求的效率;但数据复制通常存在延时,使用该方法时,很难保障数据源之间数据的实时一致性。
三是综合性集成方法,是将模式集成方法和数据复制方法混合在一起使用,提高基于中间件系统的性能。该方法仍有虚拟的数据模式视图供用户使用,同时能够对数据源间常用的数据进行复制,对于用户简单的访问请求,综合方法总是尽力通过数据复制方式,在本地数据源或单一数据源上实现用户的访问需求;而对那些复杂的用户请求,无法通过数据复制方法实现时,才使用虚拟视图方法。
3 空情大数据存储管理
收集整编后的数据具有不同的结构,而不同的结构数据采用不同的数据库来保存,如综合航迹数据是结构化数据,采用关系型数据库来保存;原始视频、侦察图像是非结构化数据,采用分布式文件系统(HDFS)保存。在保存数据时,需要实时监控各个存储节点的存储资源,当某一节点出现过载时,则需要将数据迁移到其他节点,从而达到负担均衡。
收集整编的数据中蕴涵目标识别判性的证据,具有一定的价值,因此在存储数据时采用相应的冗余策略,避免出现某一节点崩溃导致数据丢失的现象。同时,大部分数据具有一定的密级,需要设置访问权限、加密存储、数据隔离等措施来提高数据安全性。
从海量数据中快速准确检索所需数据是一新的挑战。可采用分布式数据检索,优化查询解析策略、资源管理策略、容错策略、查询派遣策略等。
3.1 数据存储方法
3.1.1 分类存储
(1) 结构化数据存储。航迹数据是结构化数据,数据量庞大,数据价值密度比较高,主要应用于通过OLAP挖掘目标的运动规律等。利用关系数据库和NoSQL数据库中的列数据库都能够存储结构化数据,但关系数据库难于扩展容量不适合存储海量数据,因此采取列数据库存储航迹数据。针对目标情报数据、计划数据等,这类数据的数据量较少,随时间增长也较少,且查询使用较多,可采取传统的关系型数据库进行存储。
事实上,对于人类存在的意义,从古至今,就有无数哲人进行过痛苦的思考,对于欲壑难填的人性之恶,及其所造成的巨大恶果,王钻清则在诗歌中对此进行了无情的鞭挞。正因如此,王钻清的诗歌不仅仅是一种横向的,简单的东西方比较,而是在不断向着历史的更深之处进行着纵深的掘进:
HBase是构建在HDFS上的列数据库,可以存储结构化和半结构化数据,针对某列或某几列的查询具有I/O优势,查找速度快,可扩展性强,容易进行分布式扩展。
(2) 非结构化数据。雷达回波数据是非结构化数据,数据量大且在快速增长;其应用场景是通过顺序读取原始数据选取指定视频片段进行回放。因此,雷达回波数据并不需要利用关系型数据库存储,而是采取易于部署、扩展性好的分布式存储系统进行存储。
Hadoop分布式文件系统HDFS是运行于普通机器构建的大规模集群上,对上层应用程序提供一个统一的文件系统应用程序接口,可实现对超大文件的存储、高吞吐量的数据访问以及高容错性。可以文件格式存储海量非格式化数据,也可以基于HDFS构建列数据库HBase。Hadoop中的Hive是一种SQL on Hadoop 技术,它把SQL编译成MapReduce,从而可读取和操作Hadoop上的数据。通过Hive,可利用SQL语言来操作和分析预警情报大数据。同时,为了对格式化数据进行管理和查询,加入MySQL数据库系统,通过Sqoop工具实现与Hadoop存储系统的同步。
3.1.2 分层存储
(1) 在线存储。在线存储是指将数据存放在高速的磁盘系统(如闪存存储介质、FC磁盘或SCSI磁盘阵列等)存储设备上,适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。在线存储是工作级的存储,其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。实时分析所需的数据可以采用在线存储,如作为目标研判证据的“证据库”,以防止因研判证据读取延时而影响目标性质研判及时性。
(2) 近线存储。近线存储是指将数据存放在低速的磁盘系统上,一般是一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备。近线存储外延相对比较广泛,主要定位于在线存储和离线存储之间的应用。就是指将那些并不是经常用到,或者说访问量并不大的数据存放在性能较低的存储设备上。但对这些设备的要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时多数情况下由于不常用的数据要占总数据量的较大比重,这也就要求近线存储设备在需要容量上相对较大。近线存储设备主要有SATA磁盘阵列、DVD-RAM光盘塔和光盘库等设备。事后分析所需的数据可以采用近线存储,如经过集成、清洗、规约处理后的数据,利用这些数据进行研判证据挖掘时的时效性要求不是太高。
3.1.3 数据一致性
数据一致性包括强一致性和弱一致性。强一致性是指更新操作完成后,任何多个后续进程或线程的访问都会返回最新的更新过的值。弱一致性是系统不保证后续进程或线程的访问都会返回最新的更新过的值。最终一致性是弱一致性的特定形式,系统保证在没有后续更新的前提下,最终返回上一次更新操作的值。对于不明空情大数据研判识别而言,研判证据需要实现强一致性,而其他待挖掘数据需要实现最终一致性。
3.2 数据检索方法
二级索引是对全表数据进行另外一种方式的组织存储,是针对table级别的。对于HBase而言,创建二级索引方式:一种是利用SQL通过Inceptor分布式SQL引擎与HBase交互,创建二级索引;一种是直接在HBase Shell中创建二级索引。
3.2.2 MapReduce查询处理
在大规模数据存储系统中,查询优化工作主要集中在MapReduce执行计划选择以及负载均衡等方面。MapReduce执行计划选择的基本思想则是在多个可选MapReduce执行计划中选择代价最小的,包含CPU性能、网络带宽、内存等评价特征。
4 空情大数据挖掘分析
完善高效的挖掘分析算法模型是空防预警大数据研判识别系统的核心。按照数据准备、建立模型、模型评估的步骤,丰富和完善特征提取、规律分析、事件关联挖掘等方法,进而获取研判识别的目标特征库、活动规律库、事件关联库等有效证据。以目标运动特征为例,其运动特征统计内容和统计流程分别如图2和图3所示。
图2 目标运动特征统计内容
图3 运动规律统计流程图
空防预警大数据中蕴含的目标多维特征,是目标识别和威胁研判的基础依据。运用大数据的统计分析、深度挖掘、关联分析等技术优势,提取目标特征,分析活动规律,挖掘关联因素,构建研判证据库。
如基于雷达原始视频提取波峰、波宽、波色、波内组织等回波特征,基于极化信息提取目标材料特征(塑料、金属、碳纤维),基于光学图像和雷达图像挖掘目标外形轮廓,基于多普勒(微多普勒)信息获取目标运动特征,基于电子侦察和无源雷达数据获取目标辐射源工作频率、脉宽、重频等参数特征等,依此综合构建起多维、全面、可靠的特征数据库,通过定期更新、扩展和完善,可为空情研判识别提供证据基础。
利用数据统计、聚类分析、深度挖掘等方法,统计分析出目标在特定区域、特定航线、特定时间反复出现的活动状态,挖掘出不同类型目标规律性的活动区域、活动航线以及对应的活动时间、飞行高度、速度等基本特性,进而综合分析和归纳总结出目标的活动规律,并将提取的各类目标活动规律按照一定的格式组装后,建立起活动规律的数据库。
运用统计分析和聚类方法,提取气象回波产生及鸟类迁徙活动的一般性规律;可基于国家体育总局、公安部等单位部门提供的重大活动信息,建立起事件关联库。
5 大数据技术研判识别不明空情具体应用
大数据技术在未来不明空情研判中的具体应用主要体现在研判要素的快速提取、分析,研判证据的快速挖掘、提供,最终实现研判结果的精准化呈现。
对不明空情目标的真伪、属性、类型、数量、类别、活动企图和威胁等级的研判,是不明空情大数据价值的具体体现,也是构建空防预警大数据研判识别研究平台的初衷。
5.1 研判识别模式
构建分级的研判识别模式,第一层级利用大数据挖掘分析的目标特征库、活动规律库等证据性结果,结合目标的瞬态特征,对目标的真伪、类型、数量等进行研判识别;第二层级结合大样本的实测数据,依据实时数据挖掘分析结果,在第一层级初判的基础上,对目标的真伪、属性、类型、数量、企图等进行综合研判;第三层级结合更大样本的关联信息,如与目标有所关联的气象、地理、事件等信息,在各知识库的支持下,对不明空情做终极研判,给出目标的威胁等级。目标行动企图的贝叶斯网络分析如图4所示。
图4 目标行动企图的贝叶斯网络分析示意图
5.2 智能推送共享
发挥人工智能优势,实现研判成果按需推送,以满足不同用户空情研判的需要。上一级机构上报并向下级分发,同时对友邻单位等用户按需推送。各级各类用户都可以通过检索、定制等手段获取空情研判结果。
6 总结与展望
随着大数据技术的发展,航空工业的迅速壮大,尤其每天各类空中情况产生的数据量惊人,如果不加筛选,很多有用的数据信息提取不出来,就会造成巨大的资源浪费。要从海量的数据信息中准确地找到用户所需要的成为当前研究的重点问题之一。针对这一背景,本文主要研究了不明空情大数据研判可行性及整体框架,分析了大数据的存储和分析过程,将海量数据收集整编后,分门别类进行存储,并对存储的数据进行研判证据挖掘,将其用于不明空情研判识别,从而实现对数据的积累、存储、证据挖掘和应用。
空防预警系统包含了海量数据资源,想要将数据资源详尽描述并与用户需求匹配的工作量非常巨大,本文提出的只是一种方法,在此基础上,下一步的工作包括:一是健全法规制度研究;二是创新人才培养模式研究。