APP下载

基于随机森林的目标意图识别

2022-10-11胡智勇刘华丽龚淑君彭超

现代电子技术 2022年19期
关键词:决策树意图森林

胡智勇,刘华丽,龚淑君,彭超

(1.陆军工程大学,江苏 南京 210001;2.中国人民解放军32526部队,江苏 无锡 214100;3.中国人民解放军国防大学联合勤务学院,北京 100036;4.中国人民解放军32517部队,安徽 繁昌 241206)

0 引言

意图识别是指通过对各种战场传感器感知的信息进行综合分析,从而判断、预测或解释敌方的作战设想、作战打算、作战计划的过程。随着现代战争形态智能化发展,及时准确识别目标作战意图,对于在军事对抗行动中进行有效的指挥决策十分重要。

意图识别在国内外得到了广泛的研究,其基本流程是:以观测信息为输入,通过领域知识支撑,围绕假说空间进行推理计算,最终输出结果。主要采用的理论和方法有:贝叶斯网络、D-S证据理论、信息熵、支持向量机、神经网络等。贝叶斯网络需要较多的先验概率,分析计算比较复杂;D-S证据理论若证据之间存在强冲突将可能产生错误的结论;基于信息熵的互信息构建决策树容易出现过拟合问题,泛化能力较弱;神经网络训练数据不充分时容易出错,且可解释性较差。

近两年,目标意图识别方法有了进一步发展。文献[8]通过模糊推理方法,主要利用航向变化趋势特征和专家知识识别空中目标意图,无需大量先验统计数据,但仍需要准确可靠的军事情报和专家知识,并且需要针对不同的空中目标确定不同的隶属度函数和模糊规则。改进决策树方法也被大量用于意图识别,文献[9]通过分析属性的重要程度来找寻目标最佳属性划分标准,相对于传统ID3和C4.5决策树算法,有效提升了准确性和鲁棒性。基于循环神经网络的长短期记忆神经网络(LSTM)逐步被推广使用,文献[10]选取空中目标连续10 s的属性,使用深层LSTM进行意图识别,得到较高的准确率;文献[11]综合使用三次样条插值算法和平均值填充法修补空战数据,利用自适应矩估计优化LSTM,有效加快训练速度、防止局部最优的问题,但在数据缺失度较高的情况下会显著降低识别准确率;文献[12]在LSTM的基础上引入残差和注意力机制,提升了泛化能力,识别准确率较高,但作战因素考虑还不够;文献[13]将决策人员的认知经验封装成标签进入训练集,在LSTM的基础上引入双向传播和注意力机制,速度较快且识别率较高,但对特征相似性高、欺骗强的意图识别以及时间序列中意图改变情况考虑不够。

与其他算法相比,随机森林有如下优点:

1)两个随机性的引入,使得随机森林不容易陷入过拟合、具有很好的抗噪声能力,相对其他算法有较大优势;

2)对数据集的适应能力强,能够处理高维度数据,不用做特征选择,既能处理离散型数据,也能处理连续型数据,无需规范化处理数据集;

3)训练速度快,并能基于袋外错误率的增加量或分裂时的基尼指数下降量得到变量重要性排序;

4)在训练过程中,能够检测到特征间的互相影响;

5)算法实现较为简单。

1 随机森林

随机森林是用随机的方式建立一个森林,森林里面由很多棵决策树组成,它的每一棵决策树之间是没有关联的。它将Bootstrap重抽样方法和决策树算法相结合,在以决策树为基学习器构建Bagging(Bootstrap AGGregatING)集成的基础上,进一步在决策树的训练过程中引入随机属性选择。随机森林算法简单、易于实现、计算开销小,在很多现实任务中展现出强大的性能。文献[15]通过大量实验在121个UCI数据集上比较了179种分类算法的分类性能,结果表明随机森林算法性能最优。

1.1 随机森林的训练过程

随机森林分类通过集成学习的思路,由很多决策树分类模型组合而成。其基本流程为:首先,利用Bootstrap抽样从原始训练集抽取个样本,每个样本的容量都与原始训练集相同;然后,对个样本分别建立个决策树模型,得到个基分类器,分别为(),(),…,h();最后,根据个基分类器的分类结果,采取简单多数投票法对每个记录进行投票表决,决定其最终分类。公式如下:

式中:()表示组合分类模型;h()是单个决策树分类模型;表示分类输出变量;(⋅)为示性函数(在“⋅”为真和假时分别取1和0)。其示意图如图1所示。

图1 随机森林分类原理

1.2 基分类器的生成方法

随机森林的基分类器一般以传统决策树ID3、C4.5、CART等算法为基础产生,其中ID3算法基于信息增益,C4.5算法基于信息增益率,CART算法基于基尼指数。不同的是,在选择划分属性时,传统决策树是在当前节点的属性集合(假定有个属性)中选择最优属性,而随机森林是先从该节点的属性集合中随机选择一个包含个属性的子集,然后再从这个子集中选择最优属性用于划分。一般情况下,推荐=log。另一个不同点是,为了防止过拟合,对随机森林的决策树不进行剪枝。

WEKA(Waikato Environment for Knowledge Analysis)是新西兰的怀卡托大学(The University of Waikato)开发的一款免费开源的机器学习和数据挖掘软件。WEKA中随机森林(Random Forest)的基分类器使用的是随机树算法(Random Tree),其评定分类效果最好的属性节点的标准为信息增益。信息增益的具体方法如下:

定义1:在分类结果属性节点处,将样本分为,,…,C共类,样本集的熵是:

式中p为第类在样本集中出现的概率。

定义2:在一般属性处,将样本分为,,…,C共类的信息量为:

式中:||为总样本数;|C|为在一般属性处属于第类样本的数量。属性的信息增益为:

信息增益最大的属性将被选择作为分类节点。

1.3 连续属性值的处理

对于连续属性,采用二分法(Bi-partition)进行处理。给定样本集和连续属性,假定在上出现了个不同的取值,将这些取值由小至大进行排序,记为{,,…,a},候选划分点的集合T如下:

T中的为中位点,可将划分为2个子集:,可计算基于二分后的信息增益。

于是,可选择使Gain(,,)最大化的划分点,将连续属性转变为二分属性处理。

2 目标意图识别

2.1 选取属性和数据集

根据战场环境的不同,目标作战意图识别的属性也不尽相同。陆战场一般考虑兵力部署、地形地貌、军事设施、武器威力等要素,海战场主要考虑编队队形、目标类型、机动特征、气象水文、电磁声光等要素,空战场主要考虑运动方向、运动状态、目标高度、目标属性等要素。本文选用2015年全国研究生数学建模竞赛A题中的数据进行建模,数据共有7个属性:

1)方位角:从我方到目标方向的方位角,正北时为0 mil,顺时针方向一周为6 400 mil。

2)距离:从我方到目标的距离。

3)水平速度:目标在水平面上的速度。

4)航向角:目标飞行的方向,正北为0°,顺时针方向一周为360°。

5)高度:目标的海拔高度。

6)雷达反射面积:目标在雷达上的回波大小。

7)目标属性:雷达反射面积为[0,2)时为小目标,[2,4)时为中目标,[4,∞)时为大目标。

设定目标意图空间={侦察,攻击,掩护,监视,其他},其中“其他”指非前4类的其他意图,如佯攻、突防、防御、电子干扰、搜索、撤离等。

获得已知意图的15批空中目标和未知意图的12批空中目标数据分别如表1、表2所示。

将表1作为训练集,表2作为测试集。为准确验证结果,选取6支竞赛一等奖获得队的目标识别结果。

表1 已知意图的15批空中目标数据

表2 未知意图的12批空中目标数据

使用简单多数投票法得出测试集分类结果,作为测试集识别结果的评判标准,计算方法如下:

式中:Vote()是投票结果;V()表示单支参赛获奖队伍预测结果;表示目标意图空间的具体意图;(·)为示性函数(在“·”为真和假时分别取1和0)。对于一些参赛获奖队伍意图识别结果为两类(如华中科技大学参赛获奖队将ID为41006872的空中目标意图识别为“攻击/监视”),按每类0.5分计数;对于投票数相同的情况,按照6支参赛获奖队伍获奖顺序(复旦大学、北京邮电大学、海军工程大学、华中科技大学、三峡大学、上海工程技术大学)优先选取结果。6支参赛获奖队伍识别及投票结果如表3所示。

表3 六支参赛获奖队伍识别及投票结果

2.2 基分类器生成

使用WEKA中的随机树(Random Tree)算法,可以生成随机森林中的决策树。设置随机种子值为4,属性数量为3(总共7个属性,log7=2.807 4,四舍五入得3),可从训练集中生成决策树如下:

使用WEKA可视化该决策树,如图2所示。随机森林将产生大量决策树,投票产生结果。并且由于决策树之间相互独立,没有联系,可以使用分布式计算,将决策树生成过程分配给多台计算机同时处理,大幅度提高计算效率。

图2 随机决策树

2.3 随机森林参数选择

使用WEKA 3.8.5随机森林算法,设置随机树数量分别为5,30,100,250,450,600,800,1 000,3 000,并使用折交叉验证法(-fold Cross Validation)进行假设检验。训练集仅有15个样本,共有5种分类,实际分类数AP(Actual Positive)分 别 为:AP=AP=AP=4,AP=2,AP=1。考虑到训练集样本数量较少,这里取=15,即留一法(Leave-One-Out)进行检验。

由于“其他”意图实际并非单一意图,而是除前4种意图之外的多种不同意图的集合,而召回率指标可以较好地衡量对前4种意图的敏感度,故本文主要使用召回率衡量算法的表现。

考虑到随机森林算法随机性较强,设定随机数种子空间={1,10,100,200,400,900,1 500},使用中的7个随机数种子进行检验。通过中5种分类的真正例数TP(Ture Positive)、实际分类数AP,可求得单个分类的召回率Recal(l衡量反映单个分类的预测敏感程度)、差异率DCRP(Discrepancy,衡量不同随机数下单个分类的预测值差异程度)以及全部分类的精度Acc(Accuracy,衡量预测总体准确程度)、总差异率TD(Total Discrepancy,衡量不同随机数下每次预测值的总体差异程度),计算公式如下:

训练结果如图3~图6所示。

图3 精度与总差异率

图6 单个分类差异率

在配置为Intel Core i5-4210U@2 500 MHz处理器、8 GB DDR3-1600内存、Windows 10操作系统的计算机上运行,得到检验结果如表4所示。

表4 随机森林算法不同参数假设检验情况

从总体上看,通过图3可以发现,当随机树数量达到100棵后,预测精度基本保持在60%左右,总差异率低于6%;达到600棵后,总差异率低于3%;超过1 000棵后,总差异率低于2%。从图4可以看出,在随机树数量为[5,3 000]范围内,随机森林算法的训练时间与随机树数量基本成线性关系,训练速度总体较快。

图4 训练时间及线性拟合

具体到单个分类上,从图5可以看出,“掩护”意图受随机树数量影响较大,当随机树数量达到600棵后,“掩护”意图的召回率达到100%。另外4种意图的召回率受随机树数量影响较小,其中“侦察”意图的召回率最高,达到100%,“攻击”意图的召回率接近60%,“其他”意图的召回率约为20%。而“监视”意图召回率之所以一直为0,是因为训练集15个样本中只有1例“监视”意图,使用随机森林算法采用留一法检验时,召回率必然为0。从图6可以看出,当随机树数量达到600棵后,出现差异主要是对“攻击”意图的识别。

图5 单个分类召回率

综上,随机树数量为600棵时,精度较高,差异率较低,识别结果稳定,训练速度较快。因此,选取随机树数量为600棵对测试集进行识别。

2.4 识别结果对比分析

使用WEKA,通过随机森林算法,设置随机树数量为600,对表2未知意图的12批空中目标意图进行识别,与表3的投票结果对比见表5。

表5 随机森林算法识别结果

通过对比可以发现,随机森林算法正确识别10例,错误识别2例。从图5中可以看出,通过使用随机森林对训练集15个样本的训练以及留一法检验,由于对“监视”意图的敏感度(即召回率)为0,而对“侦察”和“掩护”意图的敏感度达到100%,说明预测时极易将“监视”意图误识别为“侦察”或“掩护”,导致了对ID为41006839的目标识别错误;由于对“其他”意图的敏感度较低,约为20%,而“攻击”意图的敏感度约为60%,说明预测时容易将“其他”意图识别为“侦察”“掩护”“攻击”,导致了对ID为41006860的目标识别错误。

可以通过计算6支参赛获奖队伍与随机森林算法在测试集上的识别结果总体精度及单个分类召回率来比较算法优劣,由于测试集中无“掩护”分类,故无法求出“掩护”意图的召回率。因为测试集的真实分类并没有被给出标准答案,使用6支参赛获奖队伍的投票结果仅仅是一种评判的参考指标,为了更加客观评估随机森林算法的表现,将该算法的留一法检验精度及召回率一并对比,同时列出了6支参赛获奖队伍使用的识别方法的检测结果。对比结果见表6及图7。

表6 参赛获奖队伍与随机森林算法对比 %

图7 参赛获奖队伍与随机森林算法对比

通过对比发现,随机森林在测试集上的识别精度为83%,高于通过留一法验证的精度,也高于其他参赛获奖队伍的精度,说明随机森林能够相对准确地识别目标意图。

单个分类精度上,对“攻击”“侦察”意图的识别敏感度较高(100%),对“监视”意图的识别敏感度极低(0%,主要是由于训练集中“监视”意图实例数较少,只有1例),对“其他”意图的敏感度也有所欠缺(83%,主要是由于“其他”意图不是某一种单独的意图,而是不属于前4种意图的所有意图的合集,本身复杂度较高)。而北京邮电大学基于数据和航向图的排除法、海军工程大学的聚类分析方法、华中科技大学的BP神经网络方法对“监视”意图的敏感度较高,可以用来辅助识别该意图。

3 结 语

使用随机森林算法进行目标意图识别,是一种简便、快速、高效的方法,其识别准确度较其他算法具有一定的优势;识别速度较快,适合战场条件环境使用;基学习器采取决策树模型,可以直接处理连续型数据,无需无量纲化、离散化处理数据,不需要过多的预处理环节;内部决策树相互独立,可分布式生成,大幅提升效率。但是,其对训练集中实例数量较少的分类敏感度不够,实际使用中,可能需要和其他算法相配合。

猜你喜欢

决策树意图森林
原始意图、对抗主义和非解释主义
陆游诗写意图(国画)
制定法解释与立法意图的反事实检验
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
哈Q森林
哈Q森林
哈Q森林
基于决策树的出租车乘客出行目的识别
哈Q森林