基于深度学习的目标行为知识发现方法*
2022-04-07成磊峰何丽莎薛丽惠
成磊峰 何丽莎 薛丽惠 刘 欣
(中国西南电子技术研究所 成都 610036)
1 引言
知识发现[1~5]是通过综合运用统计学、模糊学习、机器学习和专家系统等多种学习手段,从大量的结构化数据、非结构化数据中提炼出抽象的、有价值的信息,从中发现潜在的规律。
2000 年~2010 年的十年间,国外有许多研究机构、公司和学术组织从事知识发现工具的研制和开发,并且出现了许多数据挖掘和知识发现系统。如IBM 研究中心开发的系统Quest,它可以从大型数据库中发现关联规则、分类规则、序贯模式、时间序列模式等。2015 年,美国高级研究计划局“大机理”、“战场迹象”等项目,致力于提升基于大数据的辅助决策等知识发现能力。
与国外相比,国内对知识发现的研究稍晚。1993 年国家自然科学基金开始对知识发现研究进行支持,目前国内许多高校和科研单位在从事知识发现的基础理论和应用研究并且发展迅速,但是知识发现的一般原理与针对特定应用需要的有效知识发现之间还存在着不小的距离,需要在基础理论、挖掘技术和算法、应用领域的拓展等知识发现方面加强更加深入的研究,开展相关的技术存储和系统论证建设。
当前,战场环境中的目标分析主要建立在高价值、小数据的分析基础上,数据掌握的不够充分,无法保障分析的全面性和准确性,对多元目标数据的挖掘分析,利用层次深度比较低,潜在的内涵规律挖掘不足等问题比较突出。面对众多的情报信息,目前虽然大部分处理系统已初步实现“全域一张图”,但仍处于“有态无势”的局面,且对当前状态缺乏解读,仅仅是当前时空的简单展示,数据决策支持能力严重不足。
因此,需建立基于数据样本的目标挖掘分析,将不同来源的情报信息以目标为中心,按照时域、空域、信息域进行关联,围绕目标、任务、区域将多源情报进行高效聚合分析,从而完成对目标的准确识别和目标行为特征分析,保障对战场目标信息的全面掌控。
基于此,本文提出了一种基于深度学习的目标行为知识发现方法,针对结构化和非结构化的目标数据。首先,依据时空距离及业务知识规则,进行结构化数据去重、野值剔除、别名归一化,以及非结构报文要素抽取与关联,实现对目标要素的补充;其次,针对已掌握行为意图的历史数据,分析并发现时变参数,构建目标行为特征模型;然后,基于深度学习方法实现特征训练或历史规律挖掘,为目标识别提供知识支撑;最后,基于特征训练或历史规律进行目标识别,通过识别结果的变化分析,挖掘其行为规律及异常,发现新知识。
2 目标历史行为挖掘
2.1 目标数据预处理
目标数据预处理,包括时空结构化数据预处理和非结构化报文抽取。
1)时空结构化数据清洗
时空结构化数据清洗,针对结构化的时空数据,依据时空距离及业务知识规则,进行数据去重、野值剔除处理、别名归一化处理。
数据去重:依据位置和时间差计算距离,判断距离是否小于距离阈值,进行航迹点数据去重;
野值剔除:按照位置时间进行排序,计算排序后两点之间的距离,通过物理学公式计算得到速度值,若速度值大于阈值则作为野值点进行剔除;
别名归一化:针对舰船目标,通过弦号、目标分类组合形成业务规则;针对飞机目标,通过注册号(机舷号)、型号、目标分类组合形成业务规则,作为目标别名归一化的处理依据。
2)非结构化报文抽取
针对非结构化的动向报文,按预定义的动向要素模型进行动向要素抽取,抽取之后进行目标要素关联,实现对目标信息补充。结构化抽取与关联过程,包括以下步骤。
第一步:动向要素建模。目标动向要素描述了目标日常任务活动中涉及的时间、时段、区域、路线等具备动向特征的一系列要素。通过历史数据分析,对目标动向要素及其结构进行了定义和描述。
第二步:动向要素抽取。现有动向文字数据中,目标名称、机舷号、航迹信息等都有一些规则化的描述和表达方法,基于现有目标动向报文的业务规则的总结,提供一个开放式的抽取规则维护工具,实现规则的自定义添加和维护,完成基于业务规则的动向要素抽取。
第三步:目标要素关联。通过基于呼号匹配的关联和基于时空位置的关联,完成时空数据中目标航点迹信息及高度速度信息与目标动向报文的关联,实现目标要素的进一步补全;通过目标所属区域的计算,以及目标进出区域时间计算,实现目标动向情报要素的最终补全。
2.2 目标行为特征建模
目标行为特征建模,包括目标行为特征集构建和目标行为规律建模,是目标行为规律分析的基础。
1)目标行为特征集构建
通过目标的物理特征、动态特征及关系特征的KPI指标汇总,基于目标数据进行KPI指标值计算,根据应用场合,将目标的特征集组合进行训练学习,构建出目标识别分析模型[6]。
2)目标行为规律建模
通过对重点区域、重点目标的历年行为规律数据的掌握,分析其数据描述方式、关注重点、活动特征等信息,总结出典型目标行为规律模型要素,包括目标名称、活动航线、活动区域、活动阵位、活动任务、持续时间、补给特征和协同特征等。目标行为规律模型,主要包括如下三层。
第一层,用来约束目标行为规律的范围,包括目标执行的具体任务和目标活动的具体区域。目标活动的规律特征和其所执行的任务和活动的具体区域有关,因此通过任务和区域的约束,能够使得目标的行为规律描述更加清晰。
第二层,用来定义行为规律的具体类型。对战场环境中的海空目标来说,目前关注的规律类型主要包括阵位规律、航线规律、时间规律、搭载规律、协同规律、补给规律和驻泊规律。
第三层,用来描述每类规律的具体要素属性组成。通常使用数值(值/范围)、内容描述等形式表达,对于内容描述尽量做到枚举化,对于数值通过业务标准来规范,形成统一的刻度。
2.3 目标行为规律分析
目标行为规律分析主要包括时间规律、阵位规律、航线规律、关联规律等,通过构建目标行为特征模型,利用深度学习方法,基于历史数据进行目标行为规律分析,为目标行为知识发现提供支撑。
1)目标时间规律分析
目标时间规律分析通过数据分布和时空聚类数学算法,分析目标在特定区域内执行任务时的时间特征,主要包括变化周期、持续时长等。
变化周期:先将样本按照时间顺序排列,设置时间尺度(如:季度、月、旬、周、日、时),使用前后两个样本之间的时间差计算出时间距离,通过分析时间距离的均值和方差,得到满足某一目标属性的时间周期规律,并根据不同属性的不同取值,考察属性变化与时间周期规律的关系及概率。
持续时长:通过分析持续时长的均值和方差得到持续时长的规律,同时持续时长规律还将根据不同属性的不同取值,考察属性变化与持续时长规律的关系。
2)目标航迹规律分析
目标航迹规律分析,首先,针对大量的历史数据中,采用航迹聚类[7~11]、要素统计方法,计算出目标的经典航迹,包括一条或多条较为固定的航迹线路;然后,在形成经典航迹之后,进行航迹相关属性分析,包括航线的区域、时刻、周期、时长、速度、高度,以及相应任务等属性;最后,通过有监督的交互研判,生成目标航线规律。
3)目标阵位规律分析
目标阵位规律分析采用基于密度聚类方法,从大量的历史数据中计算目标日常执行特定任务时的活动区域,包括一个或多个较为固定的位置点或区域,并进行相关属性分析,包括地理位置、大小、时刻、周期、时长,以及相应任务等属性。
4)目标关联规律分析
目标关联规律分析,分析目标群在特定区域内执行日常任务时的编队成员组成及协同规律特征。针对已掌握作战任务或行为意图的历史数据,采用Aprior算法[12]进行编队成员间的协同规则挖掘。
3 目标行为知识发现
3.1 基于行为特征的目标识别
基于行为特征的目标识别,主要有两种方式来实现:利用深度学习方法,基于特征训练进行目标识别[13~14];通过要素匹配和航迹相似性计算,基于历史行为规律的目标识别。
1)基于特征训练的目标识别
基于特征训练的目标识别,主要利用历史数据进行物理特征、动态特征及关系特征的KPI指标筛选与计算,通过深度学习方法进行模型训练,训练出分类模型后,对目标数据进行分类、预测、预警识别。
目标分类分析,通常采用C4.5 算法[15]进行模型训练,使用训练数据构建决策树进行目标分类。决策树构建的基本步骤如下。
(1)开始,所有记录看作一个节点;
(2)遍历每个变量的每一种分割方式,找到最好的分割点;
(3)分割成两个节点N1和N2;
(4)对N1和N2分别继续执行(2)~(3)步,直到每个节点不可分割为止。
目标预测分析采用随机森林算法[16]进行模型训练。通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。
2)基于历史规律的目标识别
基于历史行为规律的目标识别,主要解决在地理位置栅格化之后,通过航迹相似性来评估实时航迹与历史航迹的相似性。本文将航迹看作序列,通过最长公共子序列匹配算法[17]来处理非同步相似航迹计算,算法步骤如下。
(1)航迹粗选。判断两航迹最小覆盖矩形区域是否有交叠,若无则终止,否则继续下一步;
(2)计算相似矩阵。若两航迹串长度分别为m,n,初始化相似矩阵M[m,n]所有元素为0,若当前航迹的点i在另外一条航迹段j上,则对应的相似矩阵元素M[i,j]=1;
(3)航迹相似性判断。根据线性方程求解方法,定义航迹相似度公式如下:
相似度=rank(M)/min(m,n).
根据相似度公式计算相似度,并根据阈值参数,判断两航迹是否相似。
3.2 基于识别结果的知识发现
目标行为知识发现是基于目标识别结果,分析目标行为相关的属性、状态、配置等变化特征,通过数据值和模式变化分析识别异常,经过有监督的确判,形成新知识。
属性变化:通常指目标内在性能、机动参数的变化,包括舰机目标的机动参数,以及辐射源装备的性能变化。
状态变化:描述目标的行为趋势、工作状态、等动态,包括舰机目标的进出港、进出区域的动态,目标用频、通联模式变化。
配置变化:描述目标的部署、编配等配置信息的变化情况,包括舰机、辐射源装备的部署变化,以及舰机平台搭载装备的变化。
针对目标行为机动性能(高度、速度、转弯半径)、舰机进出基地、舰机进出区域等变化特征,根据目标识别结果,统计在频次、时序、空间上的变化进行数据趋势分析,利用数据图表的可视化,展现数据的趋势变化,分析数据的上升、下降、稳定趋势,对于数据值中的波峰、波谷等异常情况进行时纵向对比,辅助业务人员进行交互确判,形成新知识。
针对通联关系、搭载方式等变化特征,分析方法与目标关联规律分析方法相同,通过FP-growth算法[18]进行频繁模式挖掘分析,与已有的模式进行对比,若是新模式推送业务人员进行交互确判,形成新知识。
4 数值仿真实验
下面通过使用Matlab软件,对采集到的下面对采集到的某飞机在某一时间段内的时空数据,进行时间规律、航迹规律、阵位规律分析及识别分析仿真实验。
1)时间规律分析
该飞机在08:00~16:00执行任务1的活动时间热力及活动出现周期规律,如图1、图2所示。
图1 执行任务1的活动日期热力图
图2 执行任务1的活动出现周期概率统计图
该飞机在08:00~16:30执行任务2的活动时间热力及活动出现周期规律,如图3、图4所示。
图3 执行任务2的活动日期热力图
图4 执行任务2的活动出现周期概率统计图
2)航迹规律分析
该飞机执行任务1、任务2的活动航迹规律,如图5、图6所示。
图5 执行任务1的活动航迹
图6 执行任务2的活动航迹
3)阵位规律分析
该飞机执行任务1、任务2的活动阵位规律,如图7、图8所示。
图7 执行任务1的活动阵位
图8 执行任务2的活动阵位
4)基于历史规律识别分析
任意选取6 个未知目标,利用计算的时间规律、航迹规律、阵位规律分析结果,通过要素匹配和航迹相似性计算进行目标识别预测,识别分析准确性评估结果如图9所示。
图9 基于历史规律进行识别分析准确率评估图
基于深度学习的目标行为知识发现方法,通过随机森林进行行为特征训练,目标识别准确率在73%~85%之间;通过利用目标历史规律,利用属性匹配和航迹相似性计算进行目标识别准确性在80%左右。
5 结语
本文针对情报处理领域的知识动态更新问题,提出了一种基于深度学习的目标行为知识发现方法,充分利用深度学习技术,基于历史数据和已有知识进行目标历史行为挖掘,为目标识别提供知识支撑;通过目标识别及识别结果的变化分析,挖掘行为相关的属性、状态、配置的变化规律及异常,发现新的目标行为规则;经过筛选数据集对新规则进行验证,当规则使用准确率达到一定阈值进行保存,经过有监督的确判后生成新知识,进行更新管理,形成“知识利用+知识发现+知识更新”的闭环。
由于本文中的目标识别准确率受数据质量和先验知识影响,且识别结果的变化分析到知识确判生成,主要由有监督方式实现,应积累优质样本和利用人工智能方式进行优化,所以,基于深度学习的目标行为知识发现方法有待于进一步完善。