APP下载

基于动态行为学习的空中目标识别方法*

2020-06-09成磊峰

计算机与数字工程 2020年3期
关键词:关联特征目标

成磊峰 张 颋 代 翔

(1.中国西南电子技术研究所 成都 610036)(2.解放军73636部队 福州 350000)

1 引言

当前,目标分析主要建立在高价值、小数据的分析基础上,数据掌握的不够充分,无法保障分析的全面性和准确性。目标识别分析依赖于用户的经验总结,主要通过业务规则来实现。对多元目标数据的挖掘分析,深度利用层次比较低,潜在的内涵规律挖掘不足等问题比较突出。面对众多的情报信息,目前虽然大部分处理系统已初步实现“态势一幅图”,但仍处于“有态无势”的局面,且对当前状态缺乏解读,仅仅是当前态势的简单展示,数据决策支持能力严重不足。因此,需要以目标画像为需求牵引,针对大数据背景下目标行为分析与识别问题,开展深度学习框架中的模型训练、自主学习、知识维护、信息反馈等内容的研究工作,针对已掌握行为意图的目标数据,利用数据智能挖掘分析算法,提取隐含在数据中的、事先未知的、而又潜在有用的目标信息。

在过去的几年里,由深度学习发展而来的一些科学技术对信号和信息处理的各个方面都产生了深远的影响,这种影响不仅存在于传统领域,也存在于诸如机器学习[1~3]和人工智能等一些重要的新兴领域中。当前工业界并未大范围的使用深度学习[4~6]作为目标检测的技术,主要原因是因为传统的模型仍然能够满足客户需求,加之普遍情况下,目标检测的条件并不是非常苛刻,即大部分场景下的目标辨识度高,机器的识别效率高,如交通行人检测,医学生物等目标检测,而传统模型也具有数学理论完备,硬件资源要求低,模型参数易向客户解释等特点。

传统的目标检测模型[7~13]有基于贝叶斯的概率模型、模板匹配、核技巧、集成学习方法。1)贝叶斯模型:学习数据的特征计算后验概率,根据后验概率的大小进行判别分类,基本思想是最优化某个损失函数,得出模型的参数,再用学习到的模型参数去泛化其他样本数据。2)模板匹配:定义某种实现特定功能的模板,通过判断模板与样本的匹配程度来识别目标。这种方法需要根据感兴趣目标的先验知识来构造合适的模板。3)核技巧:是基于核函数的方法,典型的如支持向量机,将原始数据转换到高维空间,利用多个超平面将数据划分为多个类。4)集成学习:先学习若干个弱机器学习模型,然后通过某种结合规则将这些弱机器学习模型结合起来,通过这种强化获得比单一模型更好的效果,如bagging算法,Adaboost算法等。

为此,本文提出了一种基于动态行为特征学习的目标识别分析方法,该方法针对具有时空属性的数据,通过目标数据预处理、目标特征建模、特征深度学习,实现对空中目标的识别分析,以辅助形成目标的全维画像,提升对空中目标的认知能力。

2 特征标注与选择

2.1 行为特征标注

数据清洗与标注,包括数据格式转换、基础标签化和数据质量优化。

数据格式转换,通过关系型数据库的数据导入工具,来实现对常用文本格式excel、txt等半结构化的数据格式转换。

基础标签化,主要实现对数据进行时空打标,以及基于业务规则进行初级业务打标。

数据质量优化,包括数据标准化、缺失值处理、数据去重和野值剔除。数据标准化,针对数据字段不一致的数据,依据元数据中的信息生成一个标准映射表,按照统一后的标准对不一致的数据字段进行转换。错缺项的处理策略,处理方法有:1)使用一个全局的常量填充,如缺省值等;2)对某一类属性值进行简单计算或推断后填充错缺项。常用方法包括使用形式值、平均值(连续变量)、数据的分布特征(统计规律)等;3)用其它字段属性值来推测错缺项值;4)使用最有可能的值填充,主要途径通过数据挖掘技术建立一个预测模型,主流技术有回归、贝叶斯分类或判定树等技术,利用已有数据的多维信息来推测错缺项,然后按照这个模型的预测结果添值。数据去重处理策略,当检测到重复记录后,采用下面的规则进行剔除操作:1)保留字段项比较全的记录;2)保留无错误的记录;3)保留最新的记录。野值剔除,针对稳定性好,位置连续的目标航迹数据,采用滤波的方式,剔除航点;针对稳定性差,精度不太好的目标航迹数据,采用运动准则剔除航点,即两个点之间的距离<=定位时间差*最大运动速度。

2.2 多元数据关联

基于各类目标数据的结构化特征选择结果,在业务知识和规则的指导下,将各类情报贡献的特征要素进行叠加、关联[14],完成以目标为中心的多源情报的关联汇集。多元数据关联,分关联分粗关联和精关联两步,关联结果分为临时关联对和固定关联对两种。粗关联准则:如果目标型号、目标名称、机弦号、呼号、地址码等能够表明目标身份的属性不为空,则按照目标的身份属性进行关联;目标敌我属性已知的,作为关联的一票否决条件,即敌方目标与我方目标一定不存在关联关系。精关联准则:对利用粗关联准则关联上的目标,再利用时间、位置信息进行判断,如果目标出现的时间差和距离满足阈值要求,则认为是同一个目标,输出关联结果。

2.3 行为特征选择

通过定义目标特征学习所依赖的字段来解决,主要标注或提取的信息,形成特征数据集。基于目标识别场景,对目标特征数据集进行组合,形成目标识别特征模型要素,选取的特征要素包括速度、高度、加速度、爬升率、起飞机场、降落机场、高度区间、速度区间、航线起点、航线终点、起飞时段、降落时段、飞行时长等特征。

3 行为特征训练与识别

通过特征选择,一些和应用无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。针对选择后的特征要素,根据不同的应用场景选择不同的网络模型进行训练,通常使用的网络模型有决策树、随机森林、支持向量机和卷积神经网络等。本文针对空中目标识别,采用的是随机森林模型。

3.1 识别模型训练

将总数据集X分成集合X1和X2,其中X1作为训练集,用于训练分类器[15],其中X2作为测试集,用于分类器测试。本文采用随机森林作为网络模型进行模型训练。对训练样本集X1={xi},其中i=1,…,N。在随机森林中决策树数目为K,共有可选择特征M 和类别总数为F,决策树k(k ∈{1,…,K}),执行如下操作:

1)采取bootstrap 方式[16]对样本进行取样,产生n个子集;

2)从根节点开始,在每个节点分裂过程中,从M个可选特征随机挑选m个,比较节点中m 个特征的信息熵值,进行最优分裂;

3)当到达最大深度Dmax时,或者训练样本数目小于阈值Nmin时,停止继续分裂,生成分类器γk(x)。

对整个随机森林反复迭代执行上述操作,形成随机森林最终模型。

3.2 目标识别分析

针对历史目标数据,首先,对目标数据进行预处理,形成目标特征数据集;其次,对目标特征数据集进行特征组合,形成业务应用的目标特征模型要素,并抽取已标注的样本数据作为训练数据;然后,基于深度学习算法,使用样本数据来训练深度学习网络,通过反复特征替换计算准确率和召回率,选取评估结果最好的网络模型进行输出;最后,基于目标特征数据训练后的特征识别模型,进行目标识别。

图1 目标离线分析流程图

针对实时接收到的目标数据,经过数据清洗处理后,推送实时计算引擎,计算目标识别的特征要素,并调用训练后的模型作为预测器进行目标实时识别分析,输出识别机型结果和准确率。

图2 目标实时识别流程图

4 数值仿真实验

下面通过使用Matlab软件,利用某年度的测试数据进行目标实时识别仿真实验。通过数据预处理,抽取的目标行为特征数据集,针对目标机型识别应用场景,结合数据情况,形成目标机型识别的特征模型要素包括:最小转弯半径、最大减速度、运动最小高度、平均运动速度、平均加速度、运动平均高度、运动最大高度、最大转角速率、拐点占比、平均下降加速度、平面最小速度、最大加速度、最小运动速度、平均爬升加速度、平均爬升减速度、轨迹总长度、最大爬升加速度、平均减速度、运动总时长。

根据随机抽样原理,随机选取全年度70%的数据作为训练数据,随机选取全年度30%的数据作为测试数据,采用随机森林模型进行训练,训练之后的目标特征,经过降维处理后的原始特征曲线,如图3所示。

图3 目标原始数据特征曲线图

针对降维后的特征曲线,经过去噪光滑处理后得到的曲线,如图4所示。

图4 目标数据特征曲线图

从图3、图4可以看出,所选特征集在一定程度上有效区别所需要分析的空中目标。利用训练后的目标机型识别模型,针对实时目标数据进行识别处理,识别准确率变化情况,如图5所示。

图5 目标识别准确率随时间变化曲线图

从图5 可以看出,根据选取的特征要素,识别准确率随着目标活动时长而增长,在数据采集15分钟后空中目标识别准确率稳定在80%以上。

5 结语

本文针对空中目标识别强依赖业务规则的现象,利用结构化、非结构化等类型的目标数据,创新性的利用深度学习技术,以数据驱动的思维从动态行为特征维度,探索目标数据特征表达的新思路,丰富了目标数据认知维度,拓展了目标历史行为规律挖掘分析的途径,辅助目标活动的趋势判断和意图预测,提升了目标分析认知能力。通过数值仿真试验,可以看到不依赖于业务规则,仅以数据角度可在一定程度上解决目标识别问题。由于本文在分析计算时,仅仅考虑数据模型,没有添加业务规则识别流程,以及受实际样本数据的限制,所以,目标识别准确率有待于进一步完善。

猜你喜欢

关联特征目标
离散型随机变量的分布列与数字特征
“一带一路”递进,关联民生更紧
抓特征解方程组
不忠诚的四个特征
奇趣搭配
智趣
试论棋例裁决难点——无关联①
抓特征 猜成语
新目标七年级(下)Unit 3练习(一)
新目标七年级(下)Unit 4练习(一)