红外成像导引头抗干扰性能评估方法研究
2018-10-26陆志沣余海鸣洪泽华
马 潮,陆志沣,余海鸣,洪泽华,杨 杰,乔 宇
(1.上海交通大学 电子信息与电气工程学院,上海,200240;2.上海机电工程研究所,上海201109)
0 引 言
在现代战场上,红外导弹发挥着重要的作用,它的优点包括高精度制导、强抗干扰能力、高隐蔽性、高效费比、结构紧凑、机动灵活等,已经逐渐成为现代战争中首选的精确制导武器之一,在多次局部战争中均发挥了强大的作用[1]。近年来,由于大量使用红外制导武器,对红外干扰技术的研究迅速发展。为了削弱红外制导导弹在空中对己方目标的威胁,降低红外制导武器的作战效能,各国都在积极进行各种人工干扰方法的研究[1-4]。经过几十年的研究,红外干扰技术也在飞速发展,这在一定程度上削弱了红外制导导弹的性能。在这样的情况下,如果红外导弹的抗干扰能力弱,将很难在未来的战争中发挥作用,因此,导弹的抗干扰性能试验和评估被广泛关注[5-8]。现阶段,红外制导导弹的作战条件不断恶化,在如此恶劣的作战环境中,要求导弹依然能发挥效能,在其研制时就要明确提出导引头抗人工干扰的性能指标。当导弹的抗干扰能力满足一定条件时,就可以在目标飞行器释放多种干扰的情况下,仍能大概率击中目标,该型号导弹在满足此条件时,才具备批量生产的资格。因此,在批量生产红外制导导弹之前,需要根据研发阶段的各项性能指标,采取适当的方法评估其整体的抗干扰性能。
建立合适的红外导弹抗干扰性能的评估方法和评估指标体系,能够给红外导弹武器系统全寿命周期的各阶段重大决策提供技术上的支持,对增强导弹武器系统规划的研究、作战运用的科学性、配套装备的完善、进一步提升导弹武器作战理论研究,及全面开展各项基础方面的研究工作都具有重要意义。
目前,对于评价红外制导导引系统的抗干扰能力,现实中有着一对矛盾问题。一方面,由于外场靶试需要耗费大量的人力、物力,每枚导弹昂贵的价格也使大量地进行实弹测验变得十分困难,因此在实际中无法得到足够的数据样本来实现统计评估;另一方面,在红外导弹研发阶段,各个过程中都有大量的实验数据无法被充分利用。因此,怎样验证红外导引系统的抗干扰性能,如何建立一整套科学的、实用的抗干扰性能的评估指标体系及有效易行的评价方法,已然成为目前红外导引体系的评估工作中一项重要的课题。
本文提出一种基于随机森林算法的红外成像导引头抗干扰性能评估方法,能够定量地评估各项抗干扰指标和导引头抗干扰综合性能值之间的定量关系,为红外成像导引头抗干扰性能评估提供新的思路。
1 随机森林算法简介
随机森林方法(Random Forest,简称RF)是一种基于决策树的机器学习算法,主要通过模拟和迭代来进行数据拟合和分类。上世纪八十年代Breiman等人提出了分类和回归树(Classification and Regression Tree,简称CART)的算法,该算法通过对数据进行反复二分从而实现分类或回归,使得树算法的计算量大大降低[9]。2001年,Breiman和Cutler借鉴了贝尔实验室的 Ho提出的随机决策森林(Random Decision Forests)算法,将分类树组合成随机森林,也就是在数据和变量的使用上进行了随机化,生成多个分类树,再汇总分类树的结果,形成了随机森林算法[9]。随机森林算法能够在不显著提高运算量的前提下,提高预测精度,并且该算法对多元共线性不敏感,其学习结果对缺失数据和非平衡的数据比较稳健。由于该算法的高效性和准确性,随机森林算法在各行各业得到越来越多的应用。
2 算法原理
RF方法结合了Bagging算法的想法以及完全生长的分类回归决策树,使用Bagging算法构建数个分类模型或回归模型,最终的预测值可使用投票法或平均值,这样做的好处是能够一定程度上降低过拟合风险。其表达式为
其中,对训练样本采用M轮的boostrap采样,每一轮分别建立决策树,然后对每一轮决策树的结果进行平均。因为通过boostrap使用的采样样本子集大部分是不相同的,所以每一轮训练得到的模型之间的相关性会有所减弱。除此之外,为了进一步减小模型之间的关联程度,每次训练之前,可以依据训练数据的特征,对其进行随机采样,或者在决策树各分支上实施随机的特征选择。
2.1 决策树
决策树模型是树形结构之一,该方法是在特征的基础上,对样本进行分类或者回归预测,即基于某个特征,把样本归类至数个子区域(子树),再对每个子区域(子树)进行递归划分,直至满足迭代条件时停止子区域划分并将其视作叶子节点。建立一个决策树模型大体有三个阶段:特征选择、决策树的生成、决策树的修剪。以下将分别进行介绍。
2.1.1 特征选择
不同的特征选择顺序会导致建立不同的决策树,使用较优的特征可以使不同子树的意义更加明确,从而建立更优的决策树。因此,有必要对特征的好坏进行度量。常用度量特征对于子集好坏的指标包括误差率、信息增益、信息增益比和基尼指数等。
1)误差率
假设特征A将训练数据D归类在若干子节点之后,选择子节点中出现次数最多的类标签作为此节点的返回值,记为yc。则误差率定义为
2)信息增益
“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk,则D的信息熵定义为
假设离散特征a有V个可能的取值,若使用a来划分样本集D,那么,V个分支节点将会出现,而这里面的第v个分支节点蕴涵了D中所有在特征a上取值为av的样本,记为Dv。根据上式,计算出Dv的信息熵,此外,由于不同的分支节点所包含的样本数不同,给不同的分支节点赋予权重值|Dv|/|D|,使得样本数多的分支节点可以产生较大影响,这样,可计算出使用特征a将样本集D划分时所得到的“信息增益”为
通常,信息增益越大,代表依据特征a进行划分时实现的提高越大。所以,信息增益能够用来决定决策树的划分特征。著名的ID3决策树学习算法就是用信息增益作为准则。
3)增益率
在实际应用中发现,使用信息增益准则时,会倾向于选择那些可选数目较多的特征,为了降低这种趋势所带来的劣势,可以采用增益率来决定较优划分特征。增益率的定义为
其中,
值得注意的是,增益率准则可能对于可取值数目较小的属性有所偏好,因此不是直接选择增益率最大的候选划分属性,而是使用一个启发式的算法,即在候选的划分特征里,首先选择那些信息增益值高于平均水平的特征,然后在这些特征中挑选增益率最高的特征。
4)基尼指数
当分类回归决策树采取基尼指数作为指标来挑选划分属性时,数据集D的纯度可用基尼值定义为
直观来说,基尼指数反应了从所有样本中随机采样得到两个样本时,其类别标记相异的概率。
所以,特征a的基尼指数可定义如下:
2.2.2 决策树的生成
决策树生成的算法如下:
1)从根节点起,依次计算全样本集D上全部可能取到的属性A的信息增益值。
2)将信息增益最大的属性选为分类依据,对于与该属性值相异的其他取值,依次构建其子集作为子节点。
3)采用递归方法,依次对各个子节点使用以上算法重复上述过程,直至无可选属性或信息增益小于设定的阈值即停止。
2.2 随机森林构建
随机森林作为Bagging算法的变体,该算法是在以决策树为基学习器的基础上,在决策树的训练过程中进一步引入随机属性选择[10]。进一步讲,传统的决策树算法,在划分最优特征的过程中,通常采用的方法是在当前节点的所有特征中找出一个最佳特征。与此不同的是,在随机森林中,对基决策树的每一个节点,首先,从此节点的特征集合中随机挑选某个包含k个特征的子集,此后,从该子集中找出一个最佳特征进行划分。这里的参数k控制了随机性的引入程度[11]。可以看出,随机森林与Bagging中基学习器的“多样性”是通过样本扰动(通过对初始训练集采样)而不同,通过对Bagging算法的改进,随机森林中基学习器的多样性不仅来自于样本扰动,还来自于特征扰动。上述优化导致了最终集成的泛化性能可以利用个体学习器之间的差异度的增加而得到进一步提升。随机森林算法实现简单,计算开销比较小,在现实的应用问题中展现了强大的性能。
3 实验结果
我们通过实验验证基于随机森林的红外成像导引头抗干扰性能评估方法的有效性。本章将首先介绍相关数据以及实验结果,随后进行相应的实验,并分析了实验结果。
3.1 实验数据
通过仿真实验得到了两组不同背景的仿真序列,一组为单一颜色背景,一组为海杂波背景。通过两种不同的红外导引头抗干扰算法,测量了如表1所示的12组指标。
表1 两组仿真数据在两种不同抗干扰算法下的性能指标Tab.1 Performance of two sets of data under two different anti-jamming algorithms
(续表1)
3.2 基于层次分析法的评估结果
首先对于上述数据运用层次分析法进行初始的评估。由于层次分析法要求指标结果属于[0,1],因此,我们首先对上述数据进行了归一化处理,得到的结果如表2所示。
表2 两组仿真数据在两种不同抗干扰算法下的性能指标(归一化后)Tab.2 Performance of two sets of data under two different anti-jamming algorithms(after normalization)
对归一化的数据进行层次分析法的评估,得到红外成像导引头的抗干扰性能指数如表3所示:
表3 层次分析法的评估结果Tab.3 Results of analytic hierarchy process
3.3 基于随机森林的评估结果
利用本文提出的随机森林算法,使用MATLAB 2017a软件进行了代码实现。我们将层次分析法所得的结果作为接下来进行机器学习的标签值,对原始数据增加信噪比32 dB高斯白噪声的方法,对原始数据进行扩充,标签值仍然保持原始值。训练后,通过得到的随机森林模型对上述4组数据进行测试,得到的红外成像导引头的抗干扰性能指数如表4所示。
表4 随机森林算法的评估结果Tab.4 Results of random forest
对比上述结果和层次分析法的结果,我们可以发现:1)4组数据的平均误差为4.20%,小于5%,误差范围较小,说明随机森林算法能够很好的吻合层次分析法的评估结果;2)进行相关系数分析,计算得到相关系数为r=0.999 989,进一步说明了本文提出的基于随机森林的抗干扰算法的有效性。
4 结束语
考虑到研究红外成像导引头抗干扰性能评估方法研究的重要性,本文提出了一种基于随机森林的抗干扰性能评估方法,为红外成像导引头抗干扰性能评估提供了新的思路。通过不同的抗干扰算法对不同仿真数据的评估,结果表明,本方法能够有效准确地评估红外成像导引头的抗干扰性能。